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内 容 简 介 


本 书 从 浅显 易 懂 的 “大 数据 和 机 器 学 习 ” 原 理 说 明 入 手 ， 讲 述 大 数据 和 机 器 学 习 的 基本 概念 ， 如 分 类 、 分 析 、 
训练 、 建 模 、 预 测 、 机 器 学 习 〔 推 荐 引擎 )、 机 器 学 习 ( 二 元 分 类 )、 机 器 学 习 〈 多 元 分 类 )、 机 器 学 习 〔 回 归 分 析 ) 
和 数据 可 视 化 应 用 等 。 书 中 不 仅 加 入 了 新 近 的 大 数据 技术 ， 还 丰富 了 “机 器 学 习 ” 内 容 。 

为 降低 读者 学 习 大 数据 技术 的 门槛 ， 书 中 提供 了 丰富 的 上 机 实践 操作 和 范例 程序 详解 ， 展 示 了 如 何在 单机 
Windows 系统 上 通过 Virtual Box 虚拟 机 安装 多 机 Linux 虚拟 机 ， 如 何 建立 Hadoop 集群 ， 再 建立 Spark 开发 环境 。 
书 中 介绍 搭建 的 上 机 实践 平台 并 不 限制 于 单 台 实体 计算 机 。 对 于 有 条 件 的 公司 和 学 校 ， 参 照 书 中 介绍 的 搭建 过 程 ， 
同样 可 以 实现 将 自己 的 平台 搭建 在 多 台 实 体 计算 机 上 ， 以 便 更 加 接近 于 大 数据 和 机 器 学 习 真 实 的 运行 环境 。 

本 书 非常 适合 于 学 习 大 数据 基础 知识 的 初学 者 阅读 ， 更 适合 正在 学 习 大 数据 理论 和 技术 的 人 员 作 为 上 机 实践 用 
的 教材 。 
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序 


本 书 将 方兴未艾 的 “机 器 学 习 ” 和 热门 的 “大 数据 分 析 ” 技 术 与 应 用 在 一 本 书 中 融会 贯通 
地 娓 娓 道 来 ， 体 现 了 作者 深厚 的 技术 功底 和 丰富 的 经 验 。 和 已 经 出 版 的 《Hadoop+Spark 大 数 
据 巨 量 分 析 与 机 器 学 习 整 合 开发 实战 》 一 书 相 比 ， 本 书 不 是 简单 的 更 新 和 升级 ， 而 是 在 原 有 的 
基础 上 增加 了 大 数据 技术 , 还 丰富 了 其 中 略 显 薄 弱 的 “机 器 学 习 ” 内 容 ， 增 加 了 4 章 都 和 机 器 
学 习 有 关 的 内 容 。 另 外 ， 作 者 还 用 流行 的 “胶水 语言 ”Python 重新 改写 了 另 一 本 书 中 的 范例 
程序 ， 并 添加 了 “机 器 学 习 ”+“ 大 数据 ”章节 的 范例 程序 ， 所 以 将 书 名 改 为 “Python + Spark 
2.0+ Hadoop 机 器 学 习 与 大 数据 实战 ”更 加 突出 “机 器 学 习 ” 并且 强调 范例 程序 是 运用 更 加 
流行 的 Python 语言 来 编写 的 。 

在 因特网 、 社 交 媒体 、 电 子 商 务 等 交叉 发 展 和 呼应 下 ,“ 网 络 ” 这 个 巨人 已 经 拥有 了 难以 
计数 的 海量 数据 ， 虽 有 传统 结构 化 的 数据 、 半 结构 化 的 数据 ,但 更 多 的 是 非 结构 化 的 数据 。 这 
些 貌 似 杂 乱 无 章 、 上 毫 无 意义 的 海量 数据 是 一 座 等 待 发 掘 的 巨大 “ 金 矿 ”。 这 些 海量 数据 中 部 含 
着 极为 丰富 的 人 类 知识 库 ,， 是 一 笔 巨大 的 信息 资产 。 随 着 云 计算 时 代 的 来 临 ， 对 这 些 原本 很 难 
收集 整理 的 大 数据 进行 及 时 甚至 是 实时 分 析 和 处 理 并 加 以 有 效 利用 就 不 再 是 “ 海 市 感 楼” 了。 

与 大 数据 相关 的 内 容 不 外 乎 三 方面 : 大 数据 理论 ， 大 数据 分 析 和 处 理 的 技术 (机 器 学 习 为 
核心 技术 )， 大 数据 的 实践 应 用 。 在 与 大 数据 有 关 的 出 版 物 中 ， 偏 重 于 理论 教学 和 技术 介绍 一 
类 的 比较 多 ,而 偏重 于 上 机 实践 和 自学 的 书 比较 少见 。 因 此 ， 本 书 非常 适合 “机 器 学 习 和 大 数 
据 分 析 ” 的 初学 者 和 正在 学 习 这 个 领域 技术 的 人 员 作 为 学 习 和 上 机 实践 用 的 教材 。 

本 书 不 是 对 原理 进行 纯 理 论 的 阐述 , 而 是 提供 了 丰富 的 上 机 实践 操作 和 范例 程序 从 而 降 
低 了 读者 学 习 “ 机 器 学 习 和 大 数据 分 析 ” 的 门槛 。 对 于 需要 直接 上 机 实践 的 学 习 者 而 言 ， 本 书 
更 像 是 一 本 学 习 实践 和 实战 开发 的 上 机 手册 。 书 中 首先 展示 了 如 何在 单 台 Windows 系统 上 通 
过 Virtual Box 虚拟 机 安装 多 台 Linux 虚拟 机 ， 而 后 建立 Hadoop 集群 ， 再 建立 Spark 开发 
环境 。 搭建 这 个 上 机 实践 的 平台 并 不 限制 于 单 台 实体 计算 机 , 主要 是 考虑 个 人 读者 上 机 实践 的 
实际 条 件 和 环境 。 对 于 有 条 件 的 公司 和 学 校 ， 参照 这 个 搭建 过 程 , 同样 可 以 将 实践 平台 搭建 在 

S 台 实体 计算 机 上 。 另 外 ， 现 在 很 多 大 专 院 校 都 开设 了 Python 程序 设计 语言 的 课程 ， 所 以 本 
书 的 所 有 范例 程序 都 用 Python 语言 重新 改写 了 ， 非 常 接 “ 地 气 ”。 

在 搭建 好 “机 器 学 习 和 大 数据 分 析 ” 上 机 实践 的 软 硬 件 环境 之 后 ， 就 可 以 在 各 章节 的 学 习 

中 结合 本 书 提供 的 范例 程序 逐一 设置 、 修 改 、 调 试 和 运行 , 从 中 学 到 “机 器 学 习 和 大 数据 分 析 ” 


€ Python+Spark 2.0+Hadoop 机 器 学 习 与 大 数据 实战 


实践 应 用 中 核心 技术 的 真 谤 一 一 对 大 数据 进行 高 效 的 “智能 加 工 ” 萃取 大 数据 中 蕴含 的 “ 智 
慧 和 知识 ”， 实 现 数据 的 “增值 >， 并 最 终 将 其 应 用 于 实际 工作 或 者 商业 中 。 

对 于 企业 在 商业 应 用 中 的 “机 器 学 习 和 大 数据 分 析 ” 核 心 系统 ， 需 要 运用 商业 公司 的 解决 
方案 作为 引擎 。 在 中 国 市 场 活跃 的 国际 和 国内 著名 公司 也 提供 了 相当 好 的 解决 方案 ， 比 如 
Cloudera 对 Spark ml 提供 完整 的 支持 、 星 环 科 技 基于 Spark 自主 研发 了 机 器 学 习 产 品 Discover。 

大 数据 与 云 计算 的 关系 密 不 可 分 , 涉及 众多 关键 技术 ， 比 如 分 布 式 处 理 、 分 布 式 数据 库 和 
云 存储 、 虚 拟 化 技术 等 ,但 是 它们 不 是 本 书 的 重点 ， 所 以 这 里 并 未 深入 讲解 。 建 议 需 要 深入 学 
习 这 方面 内 容 的 读者 去 寻找 相关 出 版 物 ， 结 合 本 书 的 实践 来 丰富 和 完善 自己 的 大 数据 知识 体 
系 。 


资深 架构 师 赵 军 
2017 年 11 月 
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朋 吾 


机 器 学 习 是 近 二 十 来 年 兴起 的 多 领域 学 科 , 机 器 学 习 算法 可 从 数据 中 建立 模型 ， 并 利用 模 
型 对 未 知 数据 进行 预测 。 机 器 学 习 技 术 不 断 进步 ， 应 用 相当 广泛 ， 例 如 推荐 引擎 、 定 向 广告 、 
需求 预测 、 垃 圾 邮件 过 滤 、 医 学 诊断 、 自 然 语 言 处 理 、 搜 索引 擎 、 诈 骗 侦 测 、 证 券 分 析 、 视 觉 
辨识 、 语 音 识别 、 手 写 识别 等 。 

近年 来 Google、Facebook、Microsoft、IBM 等 大 公司 全 力 投入 机 器 学 习 研 究 与 应 用 。 以 
Google 为 例 ，Google 已 经 将 机 器 学 习 运 用 到 垃圾 邮件 判断 、 自 动 回复 、 照 片 分 类 与 搜索 、 翻 
译 、 语 音 识别 等 功能 上 。 同 时 ， 各 大 主流 Hadoop 发 行 版 公司 加 强 了 对 机 器 学 习 的 投入 ， 比 如 
Cloudera 对 spark ml 的 完整 支持 、 星 环 科技 基于 Spark 自主 研发 的 机 器 学 习 产 品 Discover。 在 
不 知 不 觉 中 ， 机 器 学 习 已 经 让 日 常生 活 更 为 便利 。 

为 什么 近年 来 机 器 学 习 变 得 如 此 热门 ,各 大 公司 都 争 相投 入 ? 因为 机 器 学 习 需 要 大 量 数据 
进行 训练 。 大 数据 的 兴起 带 来 了 大 量 的 数据 以 及 可 存储 大 量 数据 的 分 布 式 存储 技术 ， 例 如 
Hadoop HDFS、NoSQL…… 还 有 分 布 式 计算 可 进行 大 量 运算 ， 例 如 Spark 基于 内 存 的 分 布 式 
计算 框架 /架构 ， 可 以 大 幅 提升 性 能 。 

本 书 的 主题 是 Python+Spark+Hadoop 机 器 学 习 与 大 数据 分 析 。 使 用 Python 开发 Spark 应 
用 程序 ， 具 有 多 重 优势 : 不 仅 可 以 享有 Python 语言 特性 所 带 来 的 好 处 ， 即 程序 代码 简明 、 较 
易学 习 、 高 生产 力 等 ， 再 加 上 Spark 基于 内 存 的 分 布 式 计算 框架 /架构 ， 还 可 以 大 幅 提升 性 能 ， 
非常 适合 需要 多 次 重复 运算 的 机 器 学 习 算法 ， 并 且 Spark 还 可 以 存 取 Hadoop HDFS 分 布 式 
存储 的 大 量 数据 。 

本 书 希望 能 够 用 浅显 易 懂 的 原理 介绍 和 说 明 以 及 上 机 实践 操作 、 范 例 程序 来 降低 机 器 学 习 
与 大 数据 技术 的 学 习 门 槛 ， 带 领 读 者 进入 机 器 学 习 和 大 数据 的 领域 。 当 然 ， 整 个 机 器 学 习 与 大 
数据 的 生态 系统 非常 庞大 ， 需 要 学 习 的 东西 很 多 。 读 者 通过 本 书 学 习 ， 对 机 器 学 习 和 数据 有 了 
基本 的 概念 后 就 比较 容易 踏 入 这 个 领域 了 ， 以 便 深 入 研究 其 他 的 相关 技术 。 


本 书 章节 与 泡 例 程序 介绍 


本 书 特色 

提供 了 大 量 上 机 实践 操作 与 范例 程序 。 

> 上 机 实践 操作 

- 般 人 可 能 会 认为 机 器 学 习 和 大 数据 分 析 需 要 很 多 台 机 器 的 环境 才能 学 习 , 实际 上 通过 本 

书 使 用 Virtual Box 虚拟 机 的 方法 就 能 在 自家 的 计算 机 上 演练 建立 Hadoop 集群 以 及 Python 
Spark 开发 环境 。 同 时 ， 上 机 实践 操作 介绍 了 Hadoop MapReduce 与 HDFS 的 基本 概念 ， 以 及 
Spark RDD、DataFrame、Spark SQL 与 MapReduce 的 基本 概念 。 

> ”范例 程序 


以 实际 范例 程序 来 学 习 程序 设计 是 最 有 效率 的 学 习 方 式 , 因此 本 书 使 用 实际 的 数据 集 , 配 
合 范例 程序 代码 来 介绍 各 种 机 器 学 习 的 算法 ， 并 示范 如 何 获 取 数 据 、 训 练 数 据 、 建 立 模型 、 预 
测 结果 ， 由 浅 入 深 地 介绍 Python Spark 机 器 学 习 。 


本 书 章节 内 容 及 上 机 实践 操作 与 范例 程序 介绍 
> 基本 概念 介绍 
章节 章节 名 称 


二 介绍 机 器 学 习 、Spark 基本 概念 、Python 开发 Spark 机 器 学 
ee 机 器 学 习 与 Hadoop | 习 与 大 数据 应 用 、Spark ML Pipeline 机 器 学 习 流 程 、 大 数据 
定义 、 Hadoop 基本 概念 、 HDFS、 MapReduce 等 基本 原理 


> ”Hadoop 的 安装 


上 机 实践 操作 
Virtual Box 虚拟 机 软件 的 安装 | 安装 Virtual Box 虚拟 机 ， 让 你 可 以 在 Windows 系统 上 安装 


多 台 Linux 虚拟 机 


上 机 实践 操作 
一 Ubuntu Linux 操作 系统 的 安装 在 Virtual Box 虚拟 机 上 安装 Ubuntu Linux 操作 系统 


Hadoop Single Node Cluster 的 
安装 


Hadoop Multi Node Cluster 的 安 


> ”Hadoop 的 基本 功能 
章节 名 称 


章节 
Hadoop HDFS 命令 


Hadoop MapReduce 


> Spark 的 基本 功能 介绍 


Python Spark 的 安装 与 介绍 


在 IPython Notebook 运行 Python 


Python Spark RDD 


Python Sparkr 的 集成 开发 环境 
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〈 续 表 ) 


上 机 实践 操作 

在 Ubuntu Linux 的 操作 系统 上 安装 单 台 机 器 的 Hadoop 
Single Node Cluster 

上 机 实践 操作 


在 Ubuntu Linux 的 操作 系统 上 安装 多 台 机 器 Hadoop Multi 
Node Cluster ， 并 介绍 Hadoop Resource-Manager 与 
NameNode HDFS Web 界面 


说 阴 

上 机 实践 操作 

示范 如 何 使 用 HDFS 命令 ， 并 介绍 Hadoop HDFS Web 界面 
WordCount.java 范例 程序 


介绍 Hadoop MapReduce 原理 ， 示 范 如 何 使 用 Hadoop 
MapReduce 计算 文章 内 的 每 一 个 单词 (或 字 ) 出 现 的 次 数 


上 机 实践 操作 

示范 如 何 安装 Python Spark， 并 在 pyspark“ 终 端 ” 程 序 界面 
中 在 本 地 以 Hadoop YARN-client 或 Spark Stand Alone 模 式 来 
运行 Python Spark 程序 

上 机 实践 操作 

示范 如 何 安装 Aanconda Python 软件 包 , 在 IPython Notebook 
中 在 本 地 以 Hadoop YARN-client 或 Spark Stand Alone 模 式 来 
运行 Python Spark 程序 

上 机 实践 操作 

Spark 基本 功能 RDD (Resilient Distributed Dataset， 弹 性 分 
布 式 数据 集 ) 的 基本 运算 

上 机 实践 操作 

示范 如 何 安装 eclipsetpyDev 集成 开发 环境 来 运行 Python 
Spark 程序 

WordCountpy 范例 程序 

示范 如 何在 eclipse 中 在 本 地 以 Hadoop YARN-client 或 
Spark Stand Alone 模式 运行 Python Spark 程序 


python+Spark 2.0+Hadoop 机 器 学 习 与 大 数据 实战 


> 以 RDD 为 基础 的 Spark MLlib 机 器 学 习 


Python Spark 创建 推荐 引擎 


Python Spark MLlib 决策 树 二 
元 分 类 


Python Spark MLlib 逻辑 回归 
二 元 分 类 


Python Spark MLlib 支持 向 量 
机 SVM 二 元 分 类 


Python Spark MLlib 朴素 贝 叶 
斯 二 元 分 类 


Python Spark MLlib 决策 树 多 
元 分 类 


IPython Notebook 范例 程序 

通过 IPython Notebook 交互 式 界面 ， 示 范 如 何 使 用 Spark 

MLlib 命令 建立 电影 的 推荐 引擎 

RecommendTrain.py 范例 程序 

示范 如 何 提取 数据 、 训 练 并 建立 模型 、 存 储 模型 

Recommend.py 范例 程序 

示范 如 何 载 入 模型 、 使 用 模型 推荐 用 户 或 电影 

RunDecisionTreeBinary.py 范例 程序 

示范 如 何 使 用 决策 树 二 元 分 类 分 析 StumbleUpon 数据 集 ， 预 

测 哪些 网 页 是 暂时 性 或 可 以 长 久 存在 的 ， 并 且 找 出 最 佳 参数 

组 合 ， 提 高 预测 准确 度 

RunLogisticRegressionWithSGDBinary.py 范例 程序 

示范 如 何 使 用 逻辑 回归 二 元 分 类 分 析 StumbleUpon 数据 集 ， 

预测 哪些 网 页 是 暂时 性 或 可 以 长 久 存 在 的 ， 并 找 出 最 佳 参数 
合 ， 提 高 预测 准确 度 

RunSVMWithSGDBinary.py 范例 程序 

示范 如 何 使 用 支持 向 量 机 SVM 二 元 分 类 分 析 StumbleUpon 

数据 集 ， 预 测 哪些 网 页 是 暂时 性 或 可 以 长 久 存在 的 ， 并 找 出 

最 佳 参数 组 合 ， 提 高 预测 准确 度 

RunNaiveBayesBinary.py 范例 程序 

示范 如 何 使 用 朴素 贝 叶 斯 二 元 分 类 分 析 StumbleUpon 数据 

集 ， 预 测 哪些 网 页 是 暂时 性 或 可 以 长 久 存在 的 ， 并 找 出 最 佳 

参数 组 合 ， 提 高 预测 准确 度 


RunDecisionTreeMulti.py 范例 程序 

示范 如 何 使 用 决策 树 多 元 分 类 分 析 Covertype 数据 集 (森林 
覆盖 植被 ) ， 根 据 不 同 的 土地 条 件 可 以 预测 该 地 的 植被 ， 并 
找 出 最 佳 参数 组 合 ， 提 高 预测 准确 度 
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Python Spark MLlib 决策 树 回 
归 分 析 


RunDecisionTreeRegression.py 范例 程序 

示范 如 何 使 用 决策 树 回归 分 析 Bike Sharing (共享 单车 ) 数据 
集 。 根 据 天 气 假日 条 件 ， 可 以 预测 每 一 个 小 时 租借 的 数量 ， 
并 找 出 最 佳 参 数组 合 ， 提 高 预测 准确 度 


本 书 章节 与 范例 程序 介绍 9 


> 以 DataFrame 为 基础 的 Spark ML Pipeline 机 器 学 习 流 程 


IPython Notebook 范例 程序 
Python Spark SQL、DataFrame、| 通过 IPython Notebook 交互 式 界面 介绍 并 比较 Spark 数据 的 
RDD 数据 统计 与 可 视 化 处 理 方式 : DataFrame vs Spark SQL vs RDD, 并 且 使 用 Pandas 
与 matplotlib 绘图 


IPython Notebook 范例 程序 


以 “StumbleUpon ”数据 集 示范 如 何 使 用 Spark ML Pipeline 
Spark ML Pipeline 机 器 学 习 流 | 机 器 学 习 流程 二 元 分 类 ， 预 测 网 页 是 暂时 性 的 还 是 长 久 存 在 
程 二 元 分 类 的 ， 并 且 使 用 训练 验证 与 交叉 验证 找 出 最 佳 模型 ， 提 高 预测 
准确 度 ， 最 后 介绍 如 何 使 用 随机 森林 RandomForestClassifier 
分 类 算法 进一步 提高 准确 率 


IPython Notebook 范例 程序 


以 “森林 覆盖 植被 ”多 元 分 类 数据 集 示范 如 何 使 用 Spark ML 
Pipeline 机 器 学 习 流 程 多 元 分 类 ， 预 测 Cover Type 森林 和 获 盖 
分 类 ， 并 且 使 用 训练 验证 与 交叉 验证 找 出 最 佳 模 型 ， 提 高 预 
测 准确 度 


IPython Notebook 范例 程序 

以 “Bike Sharing” 数 据 集 示范 如 何 使 用 Spark ML Pipeline 机 
Spark ML Pipeline 机 器 学 习 流 | 器 学 习 流程 回归 分 析 ， 预 测 每 一 小 时 租借 总 数量 ， 并 且 使 用 
程 回归 分 析 训练 验证 与 交叉 验证 找 出 最 佳 模型 ， 提 高 预测 准确 度 ， 最 后 

介绍 使 用 GBT (Gradient-Boosted Trees， 梯 度 提 升 决策 树 ) 

进一步 提高 预测 准确 度 


Spark ML Pipeline 机 器 学 习 流 
程 多 元 分 类 


本 书 范 例 程 序 下 载 与 安装 说 明 
可 参考 附录 A 中 有 关 本 书 范例 程序 下 载 与 安装 的 说 明 。 本 书 范例 程序 主要 分 为 两 个 部 分 : 


第 9、10、12、13、19、20、21、22 章 。 按 照 第 9 章 的 说 明 来 安装 anaconda 
及 其 设置 后 才能 使 用 这 些 范 例 程序 


IPython Notebook 范例 


第 11~18 章 。 按 照 第 11 章 的 说 明 完 成 eclipse 的 安装 与 全 部 设置 后 才能 


eclipse 范例 执行 这 些 范 例 程序 


本 书 上 机 实践 操作 命令 的 整理 


本 书 第 2 章 到 第 10 章 使 用 了 很 多 Linux、spark-shell、SparkSQL 等 命令 。 不 过 很 多 命令 都 
很 长 ， 只 要 有 一 个 字母 打 错 就 无 法 运行 ， 这样 会 增加 挫折 感 。 因 此 我 们 在 博客 文章 中 整理 了 各 
个 章节 使 用 的 命令 ， 可 参考 如 下 网 页 : 
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http://www.weibo.com/hadoopsparkbook 

安装 或 练习 命令 时 ， 你 可 以 复制 博客 文章 中 的 命令 ,然后 粘贴 到 “终端 ”程序 中 。 这 样 既 
可 以 节省 打字 的 时 间 ， 又 不 用 担心 打 错 字母 (无 法 在 VirtualBox 虚拟 机 的 Ubuntu“ 终 端 ” 程 
序 中 执行 复制 /粘贴 操作 时 ， 可 参考 第 3.9 节 的 说 明 设置 好 VirtualBox 的 共享 剪贴 板 )。 


读者 服务 与 社区 交流 

在 网 络 时 代 , 购买 本 书 的 读者 不 仅 可 以 获得 本 书 的 内 容 , 还 能 通过 网 络 社区 获得 更 多 的 信息 。 

> ”本 书 的 博客 

网 址 : http://blog.sina.com.cn/hadoopsparkbook。 

我 们 将 一 些 需 要 排列 整齐 、 系 统 化 的 信息 放 在 了 博客 文章 中 ， 还 会 随时 更 新 ， 内 容 包 括 : 

@ 本 书 上 机 实践 操作 命令 的 整理 。 

@ 本 书 内 容 或 程序 代码 的 勘误 。 

@ ”分 享 最 新 的 Hadoop 或 Spark 信息 。 

> ”本 书 的 微 博 

网 址 : http://www.weibo.com/hadoopsparkbook。 

我 们 建立 了 本 书 的 Facebook 粉丝 团 ， 欢 迎 读者 们 加 入 。 粉 丝 团 会 不 定期 贴 文 ， 分 享 最 新 
的 Hadoop 或 Spark 信息 ， 大 家 可 以 随时 提问 并 参与 交流 。 

> 百度 网 盘 

网 址 :http://pan.baidu.com/s/1i4AzAk9 注意 区 分 数字 和 英文 字母 大 小 写 ) 

如 果 下 载 有 问题 ， 请 发 送 电 子 邮 件 至 booksaga@126.com， 邮 件 主题 设置 为 “ 求 
Python+Spark 2.0+Hadoop 机 器 学 习 与 大 数据 实战 范例 程序 ”。 
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第 1 章 
Python Spark 机 器 学 习 
与 Hadoop 大 数据 


本 章 将 介绍 机 器 学 习 、Spark 基本 概念 、 使 用 
Python 开发 Spark 机 器 学 习 与 大 数据 应 用 、Spark 
ML Pipeline 机 器 学 习 流 程 、 大 数据 定义 、Hadoop 
基本 概念 、HDFS、MapReduce 等 基本 原理 。 
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上 襄 机 器 学 习 的 介绍 


机 器 学 习 技 术 不 断 进步 ， 应 用 相当 广泛 ， 例 如 推荐 引擎 、 定 向 广告 、 需 求 预测 、 垃 圾 邮件 
过 滤 、 医 学 诊断 、 自 然 语言 处 理 、 搜 索引 擎 、 欺 诈 检 测 、 证 券 分 析 、 视 觉 识 别 、 语 音 识 别 、 手 
写 识别 等 。 


> 机 器 学 习 架 构 

机 器 学 习 (Machine Learning) 通过 算法 、 使 用 历史 数据 进行 训练 ， 训 练 完成 后 会 产生 模 
型 。 未 来 当 有 新 的 数据 提供 时 ， 我 们 可 以 使 用 训练 产生 的 模型 进行 预测 。 

机 器 学 习 训练 用 的 数据 是 由 Feature、Label 组 成 的 。 


@ ”Feature: 数据 的 特征 ， 例 如 湿度 、 风 向 、 风 速 、 季 节 、 气 压 ，。 
@ 。 Label: 数据 的 标签 , 也 就 是 我 们 希望 预测 的 目标 , 例如 降雨 ( 0. 不 会 下 雨 、1. 会 下 雨 )、 
天 气 (1. 晴 天 、2. 雨 天 、3. 阴 天 、4. 下 雪 ) 、 气 温 。 


如 图 1-1 所 示 ， 机 器 学 习 可 分 为 以 下 两 个 阶段 。 


图 1-1 机 器 学 习 的 两 个 阶段 


@ 训练 阶段 (Training ) 


训练 数据 是 过 去 累积 的 历史 数据 ， 可 能 是 文本 文件 、 数 据 库 或 其 他 来 源 。 经 过 Feature 
Extraction〈 特 征 提取 ) ， 产 生 Feature (数据 特征 ) 与 Label (预测 目标 ) ， 然 后 经 过 机 器 学 习 
算法 的 训练 后 产生 模型 。 


@ 预测 阶段 (Predict ) 


新 输入 数据 ， 经 过 Feature Extraction (特征 提取 〉 产生 Feature (数据 特征 )， 使 用 训练 完 
成 的 模型 进行 预测 ， 最 后 产生 预测 结果 。 
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> ”机 器 学 习 分 类 

对 于 有 监督 的 学 习 (Supervised Learning)， 从 现 有 数据 我 们 希望 预测 的 答案 有 下 列 分 类 。 

@ 二 元 分 类 

我 们 已 知 温度、 风向、 风速 、 季 节 、 气 压 等 数据 特征 ， 希 望 预测 当天 是 否 会 下 雨 (0. 不 
会 下 两、1. 会 下 雨 )。 因 为 希望 预测 的 目标 Label 只 有 2 种 选项 ， 所 以 就 像 是 非 题 。 

@ 多 元 分 类 

我 们 已 知 湿度 、 风 向 、 风 速 、 季 节 、 气 压 等 数据 特征 ， 希 望 预测 当天 的 天 气 (1. 晴天 、 
2. 雨天 、3. 阴 天 、4. 下 雪 )。 因 为 希望 预测 的 目标 Label 有 多 个 选项 ， 所 以 就 像 选择 题 。 


@ ”回归 分 析 


我 们 已 知 湿度 、 风 向 、 风 速 、 季 节 、 气 压 等 数据 特征 ， 希 望 预测 当天 的 气温 。 因 为 希望 预 
测 的 目标 Label 是 连续 值 ， 所 以 就 像 是 计算 题 。 

对 于 无 监督 的 学 习 (Unsupervised Learning)， 从 现 有 数据 我 们 不 知道 要 预测 的 答案 ， 所 以 
没有 Label (预测 目标 )。cluster 聚 类 分 析 的 目的 是 将 数据 分 成 几 个 相 异 性 最 大 的 群 组 ,而 群 组 
内 的 相似 性 最 高 。 

根据 上 述 内 容 我 们 可 以 整理 出 如 表 1-1 所 示 的 内 容 。 

表 1-1 机 器 学 习 分 类 表 
分 类 算法 Features (特征 ) ”Label (预测 目标 ) 


二 元 分 类 、 风 向 .风速 、| 只 有 0 与 1 选项 (是 非 题 ) 
aa 、 气 压 … | 0. 不 会 下 两 1 会 二 


个 六 > 
多 元 分 类 有 多 个 选项 (选择 题 


有 监督 的 学 习 - oe “| 1 晴天 、2. 雨天 、3. 阴 天 、 
(Maulti-Class Classification) 、 4 下 雪 


回归 分 析 湿度 、 风 向 、 风 速 、| 值 是 数值 (计算 题 ) 
| 习 
温度 可 能 是 -50 一 50 度 的 范围 


无 Label 

聚 类 分 析 、 、 、| Cluster 聚 类 分 析 ， 目 的 是 将 数据 分 
(Clustering) 、 成 几 个 相 异 性 最 大 的 群 组 , 而 群 组 内 
的 相似 性 最 高 


无 监督 的 学 习 


机 器 学 习 分 类 可 以 整理 成 图 1-2。 
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人 机 器 学 习 Machine Learning ~、 


无 监督 的 学 习 Unsupervised Leaming 


、、 i 昂 


图 1-2 机 器 学 习 分 类 图 
如 图 1-3 所 示 ， 机 器 学 习 程序 的 运行 可 分 为 下 列 3 个 阶段 。 


> 


1-3 ”机 器 学 习 程序 的 运行 架构 


@@ ”数据 准备 阶段 


原始 数据 (可 能 是 文本 文件 、 数 据 库 或 其 他 来 源 ) 经 过 数据 转换 ， 提 取 特 征 字段 与 标签 字 
段 ,产生 机 器 学 习 所 需要 的 格式 , 然后 将 数据 以 随机 方式 分 为 3 部 分 (trainData、 validationData、 
testData) 并 返回 数据 ， 供 下 一 阶段 训练 评估 使 用 。 
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@ ”训练 评估 阶段 


我 们 将 使 用 trainData 数据 进行 训练 ， 并 产生 模型 ， 然 后 使 用 validationData 验证 模型 的 
准确 率 。 这 个 过 程 要 重复 很 多 次 才能 够 找 出 最 佳 的 参数 组 合 。 评估 方式 : 二 元 分 类 使 用 AUC、 
多 元 分 类 使 用 accuracy、 回归 分 析 使 用 RMSE.。 训练 评估 完成 后 , 会 产生 最 佳 模型 bestModel。 


@ 测试 阶段 


之 前 阶段 产生 了 最 佳 模 型 bestModel， 我 们 会 使 用 另外 一 组 数据 testData 再 次 测试 ， 以 
避免 overfitting 的 问题 。 如 果 训 练 评估 阶段 准确 度 很 高 ， 但 是 测试 阶段 准确 度 很 低 ， 代 表 可 
能 有 overfitting 的 问题 。 如 果 测 试 与 训练 评估 阶段 的 结果 准确 度 差异 不 大 ,代表 无 overfitting 
的 问题 。 


@ ”预测 阶段 


新 输入 数据 ， 经 过 Feature Extraction (特征 提取 ) 产生 Feature (数据 特征 )， 使 用 训练 完 
成 的 最 佳 模 型 bestModel 进行 预测 ， 最 后 产生 预测 结果 。 


本 Spark 的 介绍 


Apache Spark 是 开放 源码 的 集群 运算 框架 , 由 加 州 大 学 伯克利 分 校 的 AMPLab 开发 .Spark 
是 一 个 弹性 的 运算 框架 ， 适 合 进行 Spark Streaming 数据 流 处 理 、Spark SQL 互动 分 析 、MLlib 
机 器 学 习 等 应 用 ， 因 此 Spark 可 作为 一 个 用 途 广泛 的 大 数据 运算 平台 。Spark 允许 用 户 将 数据 
加 载 到 cluster 集群 的 内 存 中 存储 ， 并 多 次 重复 运算 ， 非 常 适合 用 于 机 器 学 习 的 算法 。 


> ”Spark RDD in-memory 的 计算 框架 


如 图 1-4 所 示 ，Spark 的 核心 是 RDD (Resilient Distributed Dataset) 弹性 分 布 式 数据 集 ， 
是 由 AMPLab 实验 室 所 提出 的 概念 , 属于 一 种 分 布 式 的 内 容 。Spark 主要 的 优势 来 自 RDD 本 
身 的 特性 , RDD 能 与 其 他 系统 兼容 , 可 以 导入 外 部 存储 系统 的 数据 集 , 例如 HDFS、HBase 或 
其 他 Hadoop 数据 源 。 


HDFS 读 取 内 存 写 入 内 存 读 取 内 存 写 入 内 存 读 取 HDFS 写 入 


国 一 加 一 7 一男 -I 一男 一 国 


图 1-4 Spark in-memory 的 计算 框架 


Spark 在 运算 时 ， 将 中 间 产 生 的 数据 暂 存在 内 存 中 ， 因 此 可 以 加 快运 行 速度 。 需 要 反复 操 
作 的 次 数 越 多 ， 所 需 读 取 的 数据 量 越 大 ， 就 越 能 看 出 Spark 的 性 能 。Spark 在 内 存 中 运行 程序 ， 
命令 运行 速度 (或 命令 周期 ) 比 Hadoop MapReduce 的 命令 运行 速度 快 100 倍 ， 即 便 是 运行 于 
硬盘 上 时 Spark 的 速度 也 能 快 上 10 倍 。 
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> ”Spark 的 发 展 历史 ( 见 表 1-2 ) 
表 1-2 Spark 发 展 历史 


年 代 说 明 


> Spark 的 特色 ( 见 表 1-3 ) 
表 1-3 Spark 特色 
说 明 


特色 
命令 周期 短 Spark 是 基于 内 存 计算 的 开放 源码 集群 运算 系统 ， 比 原先 的 Hadoop MapReduce 快 100 倍 
目前 Spark 支持 多 种 语言 ，Scala、Python、Java， 也 就 是 说 开发 者 可 以 根据 应 用 的 环 
境 来 决定 使 用 哪 一 种 语言 开发 Spark 程序 ， 更 具 弹 性 ， 更 符合 开发 时 的 需求 
Spark 提供 了 Hadoop Storage API， 使 它 支持 Hadoop 的 HDFS 存储 系统 ， 并 且 支 持 
Hadoop YARN， 可 共享 存储 资源 与 运算 ， 而 且 几 乎 与 Hive 完全 兼容 
。 我 们 可 以 在 本 地 端的 机 器 上 运行 Spark 程序 ， 只 需要 import Spark 的 链接 库 即 可 
。 也 可 以 在 自 有 的 群集 上 运行 Spark 程序 ， 例 如 Spark stand alone、Hadoop YARN 、 
可 在 各 平台 运行 | Mesos 等 自行 建立 的 群集 
。 针对 更 大 规模 的 计算 工作 ， 我 们 可 以 选择 将 Spark 程序 送 至 AWS 的 EC2 平台 上 运 
行 ， 按 照 用 户 使 用 的 计算 资源 计 费 


易于 开发 程序 


与 Hadoop 兼容 


> ”Spark 2.0 主要 功能 ( 参考 图 1-5、 表 1-4 ) 


Spark SQL Spark Mllib、ML GraphX 
DataFrame Streaming (machine (graph) 
learning) | 
| Apache Spark 2.0 


图 1-5 Spark 的 主要 功能 模块 
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表 1-4 Spark 2.0 主要 功能 说 明 


功能 


人 Spark SQL 可 以 使 用 熟知 的 SQL 查询 语言 来 运行 数据 分 析 
ee DataFrame 具有 Schema (定义 字段 名 与 数据 类 型 》， 可 使 用 类 SQL 方法 ， 例 如 
select0， 使 用 上 比 RDD 更 方便 


Spark Streaming 可 实现 实时 的 数据 串 流 的 处 理 ， 具有 大 数据 量 、 容 错 性 、 可 扩充 性 
Spark Streaming 等 特点 


GraphX 是 Spark 上 的 分 布 式 图 形 处 理 架构 ， 可 用 图 表 计算 


Spark MLlib 是 一 个 可 扩充 的 Spark 机 器 学 习 库 , 可 使 用 许多 常见 的 机 器 学 习 算法 ， 
简化 大 规模 机 器 学 习 的 时 间 。 算 法 包括 分 类 与 回归 、 支 持 向 量 机 、 回 归 、 线 性 回 
归 、 决 策 树 、 朴 素 贝 叶 斯 、 聚 类 分 析 、 协 同 过 滤 等 

Spark ML Pipeline 将 机 器 学 习 的 每 一 个 阶段 建立 成 Pipeline 流程 ， 可 减轻 数据 分 
析 师 程序 设计 的 负担 


Spark MLlib 
Spark ML Pipeline 


本 书 第 8~11 章 将 介绍 Spark 2.0 的 安装 与 基本 功能 。 


Spark 数据 处 理 RDD、DataFrame、 


Spark SQL 


Spark 数据 处 理 方式 主要 有 3 种 : RDD、DataFrame、Spark SQL 。 


> RDD、DataFrame、Spark SQL 比较 
RDD、Spark DataFrame 与 Spark SQL 最 主要 的 差异 在 于 是 否定 义 Schema。 


@ RDD 的 数据 未 定义 Schema (也 就 是 未 定义 字段 名 及 数据 类 型 ) 。 使 用 上 必须 有 
Map/Reduce 的 概念 , 需要 高 级 的 程序 设计 能 力 , 但 是 功能 也 最 强 , 能 完成 所 有 Spark 
功能 。 

@ Spark DataFrame 建立 时 必须 定义 Schema ( 也 就 是 定义 每 一 个 字段 名 与 数据 类 型 ) ， 
所 以 DataFrame 在 早期 版 本 中 也 称 为 Schema RDD。 

@ Spark SQL 是 由 DataFrame 衍生 出 来 的 ， 我 们 必须 先 建立 DataFrame， 然 后 通过 登 
录 Spark SQL temp table， 就 可 以 使 用 Spark SQL 语法 了 。 


> 易 使 用 度 : Spark SQL > DataFrame > RDD 
下 面 我 们 以 性 别 统计 为 例 ， 说 明 这 3 种 方式 的 难 易 度 。 


@ 使 用 Spark SQL 最 简单 ， 只 需要 使 用 SQL 语句 即 可 。 即 使 是 非 程序 设计 人 员 ， 只 
要 懂得 SQL 语句 也 可 以 使 用 。 
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In [62]: sqlContext.sql(""" 
SELECT gender ,count(*) counts 
FROM user_ dble 
GROUP BY gender"".show() 


+------ + + 


lgender|counts| 
+------ +------ + 
1 Fl 2731 
1 Ml 6781 
+------ +------ + 


@ DataFrame API 有 Schema， 可 直接 指定 字段 名 ， 并 且 定 义 了 很 多 类 似 SQL 的 方法 ， 
例如 select()、groupby()、count()， 我 们 可 以 使 用 这 些 方法 进行 统计 ， 比 RDD 更 易 使 
用 。 只 是 使 用 DataFrame API 必须 具有 基础 程序 设计 能 力 。 


In [64]: user df.select("gender") \ 
.groupby("gender") \ 
.Count().show() 


| F| 273] 
1 MI 6761 


@ 在 使 用 RDD 时 ， 必 须 有 Map/Reduce 的 概念 ， 需 要 高 级 的 程序 设计 能 力 ， 而 且 没有 
Schema， 只 能 指定 数据 的 位 置 ， 使 用 起 来 较 不 方便 。 


In [60]: userRDD.map(lambda x: (x[2],1)\ 
‘reduceByKey(lambda x,y: x+y).collect() 


Out[60]: [(u'M', 678), (u'F', 273)] 


> DataFrame 与 Spark SQL 比 RDD 更 快速 


DataFrame 与 Spark SQL 通过 Catalyst 进行 最 优化 , 可 以 大 幅 提 高 执行 效率 。Python 的 
语言 特性 使 其 使 用 RDD 时 执行 速度 比 Scala 慢 。 但 是 Spark Python 使 用 DataFrames 时 ， 
执行 性 能 几乎 与 Spark Scala 使 用 DataFrames 相同 。 而 且 使 用 DataFrames 时 ， 无 论 是 
Python 还 是 Scala， 运 行 时 间 都 明显 比 使 用 RDD 少 很 多 。 


使 用 Python 开发 Spark 机 器 学 习 
与 大 数据 应 用 


目前 Spark 支持 多 种 语言 ，Scala、Python、Java、R。 开 发 者 可 以 根据 应 用 的 环境 来 决定 
使 用 哪 种 语言 开发 Spark 程序 ， 能 更 弹性 地 符合 开发 时 的 需求 。 
Spark 支持 的 语言 比较 如 下 : 
@ 。 Scala 语言 是 Spark 的 开发 语言 ， 所 以 与 Spark 兼容 性 最 好 ， 执 行 效率 也 最 高 ; 但 
是 数据 分 析 师 使 用 Scala 的 比较 少 ， 学 习 门 楼 也 比 Python 高 。 


第 1 章 Python Spark 机 器 学 习 与 Hadoop 大 数据 >》 


@ Java 是 很 常用 的 程序 设计 语言 ， 运 用 很 广泛 ; 但 是 使 用 Java 开发 Spark 程序 ， 相 
同 的 功能 ， 写 出 来 的 语句 比较 宛 长， 而 且 数 据 分 析 师 也 不 太 熟 悉 Java。 

@@。R 语言 是 数据 分 析 中 很 常用 的 语言 ， 数 据 分 析 师 也 都 很 熟悉 ， 也 很 容易 使 用 ， 但 是 
目前 Spark 的 R 语言 功能 比较 不 完整 ， 未 来 Spark 仍 会 持续 开发 以 便 增加 R 语 
言 的 支持 。 然 而 R 主要 是 数据 分 析 语 言 ， 不 是 通用 的 程序 设计 语言 ， 如 果 还 需要 其 
他 功能 ， 例 如 网 站 整合 、 网 络 爬 虫 等 ， 就 需要 使 用 其 他 的 语言 。 

@ Python 是 数据 分 析 很 常用 的 程序 设计 语言 ， 程 序 代码 简明 、 易 学 习 、 高 生产 力 ， 同 
时 还 是 面向 对 象 、 函 数 式 的 动态 语言 ， 应 用 非常 广泛 。 再 加 上 数据 分 析 的 相关 模块 ， 
例如 NumPy、Matplotlib 、Pandas、Scikit-learn， 让 Python 成 为 数据 分 析 的 主要 语 
言 之 一 。Python 是 通用 性 的 程序 设计 语言 ， 可 以 用 于 开发 大 数据 相关 的 网 站 、 网 络 
爬虫 等 。 


本 书 主要 介绍 如 何 使 用 Python 开发 Spark 机 器 学 习 与 大 数据 应 用 。 


Python Spark 机 器 学 习 


Python 机 器 学 习 模 块 主要 是 Pandas、Scikit-learn， 但 是 在 大 数据 时 代 有 大 量 的 数据 ， 必 
须 具有 分 布 式 存储 以 及 分 布 式 计算 才能 够 处 理 。 

有 了 Spark 之 后 ， 使 用 Python 开发 Spark 应 用 程序 ， 可 以 使 用 HDFS 分 布 式 存储 大 
量 数 据 。 还 可 以 使 用 在 多 台 计 算 机 所 建立 的 集群 (例如 : Spark stand alone、Hadoop YARN、 
Mesos) 上 来 执行 分 布 式 计算 。 再 加 上 Spark 特有 的 内 存 运 算 ， 让 执行 速度 大 幅 提升 。 

如 图 1-6 和 图 1-7 所 示 ，Spark 机 器 学 习 主要 有 两 个 API， 说 明 如 下 。 


> ”Spark MLlib: RDD-based 机 器 学 习 API 
”sd 
图 1-6 Spark MLlib 


Spark 在 一 开始 就 提供 了 以 RDD 为 基础 的 机 器 学 习 模块 ， 优 点 是 可 以 发 挥 in-memory 
与 分 布 式 运算 ， 大 幅 提升 需要 迭代 的 机 器 学 习 模块 的 执行 效率 ， 功 能 强大 ， 能 完成 Spark 所 
有 功能 。 本 书 第 12~18 章 将 介绍 Spark MLlib: RDD-based 机 器 学 习 。 


> Spark ML pipeline: Dataframes-based 机 器 学 习 API 


Tree Spark ML Pipeline 机 器 学 习 | 


图 1-7 Spark ML Pipeline 


DataFrame 与 Spark ML Pipeline 机 器 学 习 API 的 设计 由 来 如 下 : 
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DataFrame ”Spark 受 Pandas 程序 包 启 发 所 设计 的 数据 处 理 架构 。 
Spark ML Pipeline Spark 受 Scikit-learn 程序 包 启发 所 设计 的 机 器 学 习 架 构 。 


Spark 受 Pandas 与 Scikit-learn 启发 所 设计 的 DataFrame 与 Spark ML Pipeline 的 优点 如 下 : 


Pandas 与 Scikit-learn 都 是 Python 很 受 欢迎 的 数据 分 析 程 序 包 ， 很 多 数据 科学 家 与 分 
析 师 都 很 熟悉 , 采用 类 似 的 架构 , 可 降低 学 习 门 槛 , 对 于 Spark 的 推广 有 很 大 的 帮助 。 
Spark DataFrame 与 Pandas DataFrame 是 可 以 互相 转换 的 ,为 Python 开发 者 带 来 很 
大 的 方便 。 例如， 我 们 可 以 把 数据 读 取 到 Spark DataFrame， 然 后 使 用 Spark ML 
Pipeline 机 器 学 习 、 训练、 预测 , 再 将 结果 存 回 Spark DataFrame, 最 后 转换 为 Pandas 
DataFrame。 转 换 后 就 可 以 运用 Python 丰富 的 数据 可 视 化 程序 包 (例如 matplotlib、 
Bokeh 等 ) 进行 数据 的 可 视 化 设计 了 。 

Spark DataFrame 提供 的 API 可 轻松 读 取 大 数据 中 的 各 种 数据 源 ， 例 如 Hadoop、 
Parquet、JSON 等 ， 还 可 以 通过 JDBC 读 取 关 系数 据 库 ， 例 如 MySQL、MSSQL 等 。 


Spark DataFrame ML Pipeline 与 Python 常用 数据 分 析 软 件 包 如 图 1-8 所 示 。 


大 数据 来 源 Python Spark 机 器 学 习 
Hadoop HE 
Parquet :i | gpark RDD | 一 > | SpatkMLib ] 
JSON 二 1 J 二 
出 Spark DataFrame | 一 > | SparkML Pipeline 
Hive 国 
Cassandra i python 数据 分 析 程 序 包 i 
MySQL 一 > JDBC 生 : 


Pandas DataFrame Es scikit-leam 


MS-SQL 


matplotlib 


图 1-8 常用 数据 分 析 软 件 包 


第 19~22 章 将 介绍 DataFrame 与 Spark ML Pipeline 机 器 学 习 。 


Spark ML Pipeline 机 器 学 习 流 程 介 绍 


Pipeline 一 词 的 原意 是 管道 、 输 油管 道 的 意思 。 
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> ”输油管 道 Pipeline 
想象 一 下 我 们 印象 中 石油 化 工厂 的 输油管 道 , 一连串 的 处 理 步骤 ,以 管道 连接 起 来 。 石 油 
从 原油 开始 在 管道 中 流动 处 理 ， 最 后 流出 的 产品 是 汽油 ， 如 图 1-9 所 示 。 


图 1-9 石油 生产 流程 


> ”Spark ML Pipeline 机 器 学 习 工作 流程 


Spark ML Pipeline 机 器 学 习 工 作 流程 的 原理 与 石油 管道 类 似 ， 就 是 将 机 器 学 习 的 每 一 个 
阶段 建立 成 Pipeline 流程 : 原始 数据 像 数 据 流 一 样 ， 经 过 一 连 串 的 处 理 ， 例 如 数据 处 理 、 进 
行 训 练 、 建 立 模型 、 进 行 预测 ， 最 后 产生 预测 结果 。Spark ML Pipeline 的 流程 如 图 1-10 所 示 。 


pipeline fit) 


pipelineModel.transform0 


图 1-10 Spark ML Pipeline 机 器 学 习 流程 


对 图 1-10 的 说 明 如 下 : 


(1) 建立 机 器 学 习 流程 pipeline: pipeline 可 以 包含 多 个 阶段 (stages )， 例 如 在 图 1-10 
中 前 3 阶段 是 数据 处 理 、 第 4 阶段 是 机 器 学 习 算 法 。 

(2) 训练 : “训练 数据 DataFrame” 使 用 pipeline .fit() 进行 训练 。 系 统 会 按照 顺序 执行 
每 一 个 阶段 ， 最 后 产生 pipelineModel 模型 。pipelineModel 与 pipeline 类 似 ， 只 是 多 了 训练 
后 建立 的 模型 Model。 
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(3 ) 预测 : “新 数据 DataFrame” 使 用 pipelineModel.transform() 进行 预测 。 系 统 会 按 
照 顺 序 执行 每 一 个 阶段 ， 并 使 用 机 器 学 习 算 法 模型 (Model) 进行 预测 。 预 测 完成 后 ， 会 产生 
“预测 结果 DataFrame”。 

> Spark ML Pipeline 机 器 学 习 工作 流程 的 好 处 

使 用 Spark ML Pipeline 机 器 学 习 工作 流程 的 好 处 是 减轻 数据 分 析 师 程序 设计 的 负担 : 


@ DataFrame 数据 格式 一 致 : 原始 数据 、 数 据 处 理 过 程 、 预 测 结果 的 数据 格式 都 是 
DataFrame 。 

@ 数据 处 理 模块 化 : 因为 有 很 多 数据 处 理 阶段 ， 例 如 分 类 特征 字段 的 处 理 ， 都 已 经 模 
块 化 ， 只 需要 套用 即 可 。 

@ 机 器 学 习 算法 置换 : 已 经 内 建 很 多 机 器 学 习 算法 ， 相 同 的 数据 处 理 流程 ， 很 容易 置 
换 成 不 同 的 机 器 学 习 算 法 。 


A Spark 2.0 的 介绍 


Spark 2.0 的 新 功能 介绍 如 下 : 


> ”提升 执行 性 能 


(1) Spark SQL 在 Spark 2.0 可 以 执行 所 有 99 TPC-DS 查询 ， 能 够 执行 SQL:2003 标 
准 的 新 功能 ， 支 持 子 查询 。 

(2) SparkSession: 新 增 SparkSession， 同 时 具备 了 SQLContext 与 HiveContext 功能 。 
不 过 为 了 向 后 兼容 ， 我 们 仍 可 以 使 用 SQLContext 与 HiveContext。 


> Spark ML pipeline 机 器 学 习 程 序 包 


(1) 以 DataFrame 为 基础 的 机 器 学 习 程 序 包 Spark ML pipeline 将 成 为 主要 的 机 器 学 习 
架构 。 过 去 Spark MLlib 程序 包 仍 然 可 以 继续 使 用 , 未 来 的 开发 会 以 Spark ML pipeline 为 主 。 
(2) Spark ML pipeline 程序 包 可 以 存储 、 加 载 训练 完成 的 模型 。 


> DataSet API 


过 去 的 DataFrames API 只 能 执行 具有 类 型 的 方法 (例如 select、groupBy)， 而 RDD 只 能 
执行 不 具有 类 型 的 方法 〈 例 如 map、filter、groupByKey)。 有 了 Datasets API 之 后 ， 就 可 以 同 
时 执行 具有 类 型 的 方法 与 不 具有 类 型 的 方法 。 不 过 因为 编译 时 类 型 安全 (compile- time 
type-safety) 并 不 是 Python 和 R 的 语言 特性 ， 所 以 Python 和 R 不 提供 Datasets API。 

> Structured Streaming APls 


Spark 2.0 的 Structured Streaming APIs 是 新 的 结构 化 数据 流 处 理 方式 。 它 可 以 使 用 
DataFrame/Dataset API， 以 Catalyst 优化 提升 性 能 ， 并 且 整 合 了 streaming 数据 流 处 理 、 
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interactive 互动 查询 与 batch queries 批 次 查询 。 


> ”其 他 新 增 功能 

(1)R 语言 的 分 布 式 算法 ,增加 了 Generalized Linear Models(GLM)、Naive Bayes、Survival 
Regression 与 K-Means 等 算法 。 

(2) 更 简单 、 更 高 性 能 的 Accumulator API, 拥有 更 简洁 的 类 型 结构 , 而且 支持 基本 类 型 。 

本 书 将 详细 介绍 Spark 2.0 的 安装 ， 并 且 所 有 范例 程序 都 能 在 Spark 2.0 上 运行 ， 同时 会 
特别 介绍 DataFrame 与 Spark ML Pipeline 机 器 学 习 API 等 新 功能 。 


本 大 数据 定义 


大 数据 (Big data) 又 称 为 巨 量 资 料 、 巨 量 数据 或 海量 数据 。 一 般 来 说 ， 大 数据 的 特性 可 
归 类 为 3V: Volume、Variety 和 Velocity。 


> Volume ( 大 量 数据 ) 

@ 累积 庞大 的 数据 : 因特网 、 企 业 IT、 物 联网 、 社 区 、 短 信 、 电 话 、 网 络 搜索 、 在 线 
交易 等 ， 随 时 都 在 快速 累积 庞大 的 数据 。 

@ 数据 量 等 级 : 数据 量 很 容易 达到 TB( Terabyte 1024 GB ) 甚 至 PB (Petabyte，1024TB ) 
或 EB (Exabyte，1024 PB ) 的 等 级 。 


> Variety (多 样 性 ) 

大 数据 的 数据 类 型 非常 多 样 化 ， 可 分 为 非 结 构 化 信息 和 结构 化 信息 。 

@ 非 结构 化 信息 : 文字 、 图 片 、 图 像 、 视 频 、 音 乐 、 地 理 位 置信 息 、 个 人 化 信息 一 一 
如 社区 、 交 友 数 据 等 。 

@ 结构 化 信息 : 数据 库 、 数 据 仓库 等 。 


> Velocity (时 效 性 ) 

@ 数据 的 传输 流动 : 随 着 带宽 越 来 越 大 、 设 备 越 来 越 多 ， 每 秒 产 生 的 数据 流 越 来 越 大 。 

@ ”组 织 必须 能 实时 处 理 大量 的 信息 : 时 间 太 久 就 会 失去 数据 的 价值 ， 所 以 数据 必须 能 
在 最 短 时 间 内 得 出 分 析 结果 。 

大 数据 的 影响 已 经 深入 到 各 个 领域 和 行业 , 在 商业 、 经 济 及 其 他 领域 中 , 将 大 量 数据 进行 


分 析 后 就 可 得 出 许多 数据 的 关联 性 ， 可 用 于 预测 商业 趋势 、 营 销 研究 、 金 融 财 务 、 疾 病 研究 、 
打击 犯罪 等 。 决 策 行为 将 基于 数据 和 分 析 的 结果 ， 而 不 是 依靠 经 验 和 直觉 。 
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9 Hadoop 简介 


Hadoop 是 存储 与 处 理 大 量 数据 的 平台 , 是 Apache 软件 基金 会 的 开放 源码 、 免 费 且 广泛 使 
用 的 软件 。Hadoop 的 名 称 来 自 于 原作 者 孩子 的 黄色 小 象 玩具 。 这 个 名 字 容 易 拼 字 与 发 音 ， 适 
合作 为 软件 开发 代码 ， 黄 色 小 象 因此 成 为 Hadoop 的 标志 。 


> ”Hadoop 的 发 展 历史 


2002 年 Doug Cutting 与 Mike Cafarelia 开始 进行 Nutch 项 目 。 

2003 年 Google 发 表 GFS (Google File System) 与 MapReduce 论文 。 

2004 年 Doug Cutting 开始 将 DFS 与 MapReduce 加 入 Nutch 项 目 。 

2006 年 Doug Cutting 加 入 Yahoo 团队 ， 并 将 Nutch 改名 为 Hadoop。 

2008 年 Yahoo 使 用 Hadoop 包含 了 910 个 集群 ， 对 1TB 的 数据 排序 花 了 297 秒 。 


> ”Hadoop 的 特性 ( 见 表 1-5 ) 
表 1-5 Hadoop 的 特性 
特性 


可 扩展 性 Hadoop 采用 分 布 式 计算 与 存储 ， 当 我 们 扩充 容量 或 运算 时 ， 不 需要 更 换 整 个 系统 ， 只 需 
(Scalable) 要 增加 新 的 数据 节点 服务 器 即 可 


经 济 性 Hadoop 采用 分 布 式 计算 与 存储 ， 不 必 使 用 昂贵 高 端的 服务 器 ， 只 需 一 般 等 级 的 服务 器 就 
(Economical) | 可 架构 出 高 性 能 、 高 容量 的 集群 


传统 的 关系 数据 库存 储 数据 时 必须 有 数据 表 结构 schema 各 个 数据 对 象 的 集合 ) ， 然 而 
Hadoop 存储 的 数据 是 非 结构 化 〈schema-less) 的 ， 也 就 是 说 可 以 存储 各 种 形式 、 不 同 数 
据 源 的 数据 


可 靠 性 Hadoop 采用 分 布 式 架构 ， 因 此 即使 某 一 台 服 务 器 硬件 坏 掉 ， 甚 至 整个 机 架 坏 掉 ，HDFS 
(Reliable) 仍 可 正常 运行 ， 因 为 数据 还 会 有 另外 两 个 副本 


本 书 第 2~5 章 将 介绍 Hadoop 单机 模式 与 多 台 机 器 cluster 模式 的 安装 。 


10 Hadoop HDFS 分 布 式 文件 系统 | 


HDFS 采用 分 布 式 文件 系统 (Hadoop Distributed File System) ， 可 以 由 单 台 服务 器 扩充 到 
数 千 台 服 务 器 ， 如 图 1-11 所 示 。 


弹性 
(Flexible) 
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DataNode1 DataNode2 DataNode3 


忆 与 吕 


1-11 分 布 式 文件 系统 


@ NameNode 服务 器 负责 管理 与 维护 HDFS 目录 系统 并 控制 文件 的 读 写 操作 。 
@ 多 个 DataNode 服务 器 负责 存储 数据 ， 在 图 1-11 中 我 们 只 列 出 3 个 DataNode， 实 际 
上 大 型 的 集群 可 以 有 成 千 上 万 个 节点 。 


> HDFS 设计 的 前 提 与 目标 
@ ”硬件 故障 是 常态 而 不 是 异常 ( Hardware Failure ) 


HDFS 是 设计 运行 在 低 成 本 的 普通 服务 器 上 的 。 硬 件 故障 是 常态 , 而 不 是 异常 , 所 以 HDFS 
被 设计 成 具有 高 度 容错 能 力 、 能 够 实时 检测 错误 并 且 自 动 恢复 ， 这 是 HDFS 核心 的 设计 目标 。 


@。 Streaming 流 式 数据 存 取 (Streaming Data Access ) 


运行 在 HDFS 上 的 应 用 程序 会 通过 Streaming 存 取 数据 集 。HDFS 的 主要 设计 是 批 处 理 ， 
而 不 是 实时 互动 处 理 ， 优 点 是 可 以 提高 存 取 大 量 数 据 的 能 力 ， 但 是 牺牲 了 响应 时 间 。 


@ 大 数据 集 (Large Data Sets) 


为 了 存储 大 数据 集 ，HDFS 提供 了 cluster 集群 架构 ， 用 于 存储 大 数据 文件 , 集群 可 扩充 至 
数 百 个 车 点 。 


@ ”简单 一 致 性 模型 (Simple Coherency Model ) 


HDFS 的 存 取 模 式 是 一 次 写 入 多 次 读 取 (write-once-read-many)， 一 个 文件 被 创建 后 就 不 
会 再 修改 。 这 样 设计 的 优点 是 : 可 以 提高 存储 大 量 数据 的 能 力 ， 并 简化 数据 一 致 性 的 问题 。 
@ 移动 “计算 ” 比 移动 “数据 ”成 本 更 低 ( Moving Computation is Cheaper than Moving 
Data ) 


当 我 们 的 cluster 集群 存储 了 大 量 的 数据 时 ， 要 搬移 数据 必须 耗费 大 量 的 时 间 成 本 。 因 此 
如 果 我 们 有 “计算 ”数据 的 需求 时 , 就 会 将 “计算 功能 ”在 接近 数据 的 服务 器 中 运行 , 而 不 是 
搬移 数据 。 
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@ 。 跨 硬 件 与 软件 平台 
HDFS 在 设计 时 就 考虑 到 平台 的 可 移植 性 ， 这 种 特性 有 利于 Hadoop 的 推广 。 
> HDFS 文件 存储 架构 ( 见 图 1-12 ) 


Racla 


图 1-12 文件 存储 架构 


> 文件 分 吊 


当 用 户 以 HDFS 命令 要 求 存 储 文件 时 ， 系 统 会 将 文件 切割 为 多 个 区 块 (Block ), 每 个 区 块 
是 64MB。 在 图 1-12 中 ,文件 被 分 割 为 A、B、C 共 3 个 区 块 。 


> ”区 块 副本 策略 

@ 一 个 文件 区 块 默认 会 复制 成 3 份 , 我们 可 以 在 Hadoop 配置 中 设置 文件 区 块 要 创建 几 
个 副本 。 

@ 文件 区 块 损坏 时 ，NameNode 会 自动 寻找 位 于 其 他 DataNode 上 的 副本 来 恢复 数据 ， 
维持 3 份 的 副本 策略 。 


> 机 架 感 知 

@ 在 图 1-12 中 ,共有 Rackl1、Rack2、Rack3 共 3 个 机 架 ， 每 个 机 架 都 有 4 台 DataNode 
服务 器 。 

@@ ”HDFS 具备 机 架 感 知 功 能 ， 如 图 1-12 所 示 。 以 Block C 为 例 : 第 一 份 副 本 放 在 Rackl 
机 架 的 节点 ， 第 二 份 放 在 同 机 架 Rackl 的 不 同 节 点 ， 最 后 一 份 放 在 不 同 机 架 Rack3 
的 不 同 节点 。 

@ 这样 设 计 的 好 处 是 防止 数据 遗失 ， 有 任何 机 架 出 现 故 障 时 仍 可 以 保证 恢复 数据 ， 提 
高 网 络 性 能 。 


本 书 第 6 章 将 介绍 Hadoop HDFS 命令 。 
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攻 Hadoop MapReduce 的 介绍 


利用 大 数据 进行 数据 分 析 处 理 时 数据 量 庞大 ， 所 需 的 运算 量 也 巨大 。Hadoop MapReduce 
的 做 法 是 采用 分 布 式 计算 的 技术 : 


@。 Map 将 任务 分 割 成 更 小 任务 , 由 每 台 ”7 
服务 器 分 别 运 行 ， 如 图 1-13 所 示 。 任务 2 
@ Reduce 将 所 有 服务 器 的 运算 结果 汇 7 总 守 结果 
总 整理 ， 返 回 最 后 的 结果 。 ~ 一 一 ca 
任务 4 
通过 MapReduce 方式 ， 可 以 在 上 千 台 机 
器 上 并 行 处 理 巨 量 的 数据 , 大 大 减少 数据 处 理 任务 5 
的 时 间 。 图 1-13 分 割 任务 


> MapReduce 版 本 2.0 YARN 


Hadoop 的 MapReduce 架构 称 为 YARN (Yet Another Resource Negotiator， 另 一 种 资源 协 
调 者 )， 是 效率 更 高 的 资源 管理 核心 。 可 以 到 下 列 网 址 查看 YARN 架构 图 ( 见 图 1-14) : 
http:Whadoop.apache.org/docs/currenthadoop-yarn/hadoop-yam-site/YARN.html 。 


Node Status 
Resource Request 


图 1-14 YARN 架构 图 
从 图 1-14 中 可 以 看 到 : 


@ 在 Client 客 户 端 ， 用 户 会 向 Resource Manager 请 求 执行 运算 (或 执行 任务 ) 。 
@ 在 NameNode 会 有 Resource Manager 统筹 管理 运算 的 请 求 。 
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@ 在 其 他 的 DataNode 会 有 Node Manager 负责 运行 ， 以 及 监督 每 一 个 任务 (task ) ， 
且 向 Resource Manager 汇报 状态 。 
> ”Hadoop MapReduce 的 计算 框架 
如 图 1-15 所 示 , Hadoop MapReduce 在 运算 时 需要 将 中 间 产 生 的 数据 存储 在 硬盘 中 。 然 而 ， 
磁盘 IO 往往 是 性 能 的 瓶颈 ， 因 此 会 有 读 写 数据 延迟 的 问题 。 


HDFS 写 入 HDFS 读 取 HDFS 写 入 HDFS 读 取 HDFS 写 入 


国外 -号 “四 属国 物 


图 1-15 运算 过 程 中 需要 存储 数据 
1.2 节 所 介绍 的 Spark 是 基于 内 存 内 的 计算 框架 ， 所 以 不 会 有 磁盘 IO 读 写 数据 延迟 的 
问题 ， 可 以 大 幅 提 升 性 能 。 
本 书 第 7 章 将 介绍 Hadoop MapReduce。 


本 章 我 们 介绍 了 机 器 学 习 、Spark 基本 概念 、Python 开发 Spark 机 器 学 习 与 大 数据 应 用 、 
Spark ML Pipeline 机 器 学 习 流程 、 大 数据 定义 、Hadoop 基本 概念 、HDFS、MapReduce 等 基 
本 原理 ， 让 大 家 有 一 个 基本 概念 。 接 下 来 我 们 将 在 实体 计算 机 上 操作 ， 介 绍 如 何 安装 Virtual 
Box 虚拟 机 。 
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本 章 将 介绍 如 何 安装 Virtual Box 虚拟 机 软件 ， 让 你 可 以 
在 Virtual Box 上 安装 多 台 Linux 虚拟 机 。 
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本 章 ， 我 们 将 介绍 Hadoop 的 安装 方法 。 根据 Hadoop 官方 说 明文 件 的 建议 ，Hadoop 最 主 
要 是 在 Linux 操作 系统 环境 下 运行 。 市 面 上 有 很 多 Open Source 开放 源码 的 操作 系统 都 属于 
Linux 操作 系统 ， 例 如 Fedora、Ubuntu 等 。 本 书 将 介绍 如 何 安装 Ubuntu， 并 且 在 Ubuntu 上 安 
装 Hadoop 和 Spark。 

当 我 们 介绍 搭建 Hadoop cluster 集群 时 ， 需 要 多 台 计算 机 。 但 是 ， 大 多 数 的 读者 使 用 的 是 
Windows 操作 系统 ， 而 且 没有 很 多 台 计 算 机 。 

为 了 让 读者 可 以 上 机 实践 , 我 们 会 介绍 如 何 安装 VirtualBox 虚拟 机 软件 , 这 样 就 能 够 新 增 
多 台 虚 拟 机 ， 然 后 在 虚拟 机 中 安装 Ubuntu 与 Hadoop 集群 了 。 如 果 有 多 台 实 体 计算 机 ， 也 可 
以 安装 在 实体 计算 机 中 ， 安 装 的 方法 与 虚拟 机 相同 。 

VirtualBox 是 由 Oracle 公司 所 开发 的 ， 是 一 款 免 费 并 且 具 有 中 文 版 的 虚拟 机 《Virtual 
Machine ) 软件 。VirtualBox 很 适合 练习 操作 系统 和 软件 的 安装 与 测试 ， 在 虚拟 计算 机 中 进行 
的 任何 实验 都 不 会 影响 实体 计算 机 的 正常 运行 。 安装 VirtualBox 之 后 , 你 可 以 在 计算 机 新 增多 
台 虚 拟 机 ， 然 后 在 虚拟 机 中 安装 不 同 的 操作 系统 ， 例 如 Windows、Linux 等 ， 使 用 上 与 实体 计 
算 机 一 样 。 


VirtualBox 的 下 载 和 安装 


关于 VirtualBox 5.0 的 下 载 、 安 装 以 及 设置 说 明 如 下 。 
Fo01 VirtualBox 下 载 网 址 


连接 到 网 址 (https://www.virtualbox.org/wiki/Downloads )， 选 择 “x86/amd64”， 下 载 
VirtualBox Windows 版 本 ， 如 图 2-1 所 示 。 


国 Downloads- Orac x 
a C Bhttps//wwwvirtualbox.org/wiki/Downloads 


Download VirtualBox 


Hore, you will find finks to VirtualBox binaries and its source code. 


VirtualBox binaries 


单 击 k86/amd64| 下 载 
VirtualBox Windows 版 本 


petivel 


图 2-1 下 载 Virtual Box 


302 运行 VirtualBox 安装 程序 ( 见 图 2-2 ) 
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下 载 后 在 存储 的 目录 中 可 以 看 到 已 
下 载 的 安装 文件 ， 用 鼠标 左 键 双击 


安装 程序 的 图 标 ， 即 可 开始 运行 安 
装 程序 


31-Win 


图 2-2 开始 安装 程序 


JI03 开始 安装 VirtualBox ( 见 图 2-3 ) 


| 站 Orade VM VirtualBox 5.0.22 Setup x 


Welcome to the Oracle VM 
VirtualBox 5.0.22 Setup 
Wizard 


The Setup Wizard wl nstal Orade VM VitualBox 5.0.22 on 
your computer Cick Next to contnue or Cancal to exf the 
Setup Weard. 


Veson so2 EE 


图 2-3 单 击 Next 按钮 


TT04 选择 VirtualBox 功能 ( 见 图 2-4) 


陶 Oracle VM VirtualBox 5.0.22 Setup 
Custom Setup 
Select the way you want features to be nstaled 


Cick on the icons in the ee below to change the way features wl be inetaled. 1. 选择 要 安装 的 功能 


Orace VM VituaBox 5022 
名 -| VirtualBox USB Support applcation. 
3 是 了] VtualBox Networking 


| wuaBox Brdged Nen| THis feoture essupac4ala on 


your hard drve. thas 3 of 3 


-| VirtualBox Host-Orly N| 
S| VirtualBox Python 2.x Suppc| 。 subfeatures selected. The 
Subfeatures requre 52KB 


Loaaton: 。 Crogram Fies\Drace\irtualpox\ 


Verson 5.0.22 Dsk Usace < Back Next > 


图 2-4 选择 安装 功能 


人 05 自 定义 安装 界面 ( 见 图 2-5 ) 
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邮 Oracle VM VirtualBox 5.0.22 Setup 党 


Custom setup 
Saect the way you want features to be nstaled 


Piease choose from the options below: 


加 Create a shortcut on the desktop 
回 Createa shortcut n the Quick Launch Bar 


回 Regster fle assocatons 


Verson 5.0.22 <Back Net> Ganaal 


图 2-5 自 定义 安装 
G06 警告 界面 ( 见 图 2-6 ) 


由 Oracle VM VirtualBox 5.0.22 


Warning: 此 界面 只 是 警告 提 

Network Interfaces 示 , 告诉 你 安装 时 会 
折 时 中 二 连接 

Instaling the Orade VM VituaBox 5.0.22 Networkng 暂时 中 断 网 络 连接 


feature wil reset your network connection and temporary 
dsconnect you from the network 


Proceed with instalation now? 


Version 5.0.22 


图 2-6 警告 界面 


人 07 完成 设置 ( 见 图 2-7 ) 
完成 设置 后 , 单 击 Install 按钮 开始 安装 , 也 可 以 单 击 Back 按钮 回 到 上 一 个 步骤 修改 设置 。 


Oracle VM VirtualBox 5.0.22 Setup 
Ready to Install 
The Setup Weard s ready to begin the Custom instalation. 


Cick Instal to begin the instalaton. F you want to review cr change any of your 
instalaton settings cick Back. Cick Cancsl to exf the waard. 


EEC 


Version 5.0.22 < Back Jnstal Cancal 
图 2-7 完成 设置 
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DT08 安装 完成 


安装 完成 后 单 击 Finish 按钮 ( 见 图 2-8)， 就 会 启动 VirtualBox。 


Dracle VM VirtualBox 5 0.32 Setup x 


Oracle VM VirtualBox 5.0.22 
installation is complete. 


Chck the Fnis bution to emt the Setup Weard. 


Start Orace wm wumisox s072 aher nsabmon 


/ 单 击 Finish 按钮 


ea EE Caca 


图 2-8 完成 安装 
人 09 启动 virtualBox 的 界面 
重新 启动 后 ， 可 以 看 到 VirtualBox 的 屏幕 显示 界面 ， 如 图 2-9 所 示 。 


章 Oracle VM VirtualBox 管理 器 
管理 (F) 控制 (M) 帮助 (H) 


同 曙 人 D) | 加 亩 份 [ 忒 坑 快 风 ]G) 


x YY 
靳 建 Q) 认 次 G) 洒 峡 。” 呈 动 (T) 

人 | 欢迎 使 用 虚拟 电脑 控制 台 ! 

窗口 的 左边 用 来 显示 已 生成 的 虚拟 电 脑 现在 是 变 的 ， 因 为 你 示 没 有 新 建 任何 虚拟 电脑 

从 


了 
你 可 以 按 F1 键 来 查 看 于 且 ， 或 访问 vvw vitlboxorg 查 > 
也 


个 Me 请 按 位 于 窗口 JW 工具 栏 上 的 新 建 


看 最 新 信息 和 新 闻 | 


图 2-9 启动 界面 


虑 到 设置 VirtualBox 存储 文件 夹 


当 创 建 虚拟 主机 时 ，VirtualBox 会 创建 一 个 文件 ， 用 于 存储 这 个 虚拟 主机 的 所 有 数据 ， 默 
认 在 C 盘 。 因 为 虚拟 主机 文件 通常 很 占 空间 ， 所 以 建议 设置 在 空闲 空间 比较 大 的 磁盘 上 ， 例 
如 DD 盘 或 者 E 盘 ， 这 样 也 比较 容易 进行 数据 备份 。 

接 下 来 ， 我 们 将 介绍 如 何 设置 VirtualBox 默认 存储 文件 夹 。 
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人 1 首选 项 设置 ， 选 择 菜单 File-*Preferences.… ( 见 图 2-10 ) 


章 Oracle VM VirtualBox Manager 
File| Machine Help 
下 Peerenes | 
Import Appliance... Ctrl 
Export Appliance... Ctrl+E 


电台 


Virtual Media Manager.. CihD Pe 
男 Network Operations Manager.. 

@ CheckforUpdates.. 

A ResetAllWarnings 

Exit Ctrl+Q 


图 2-10 选择 菜单 项 
人 302 设置 界面 
选择 “常规 ”设置 ， 在 默认 机 器 文件 夹 的 下 拉 菜 单 中 选择 “其 它 ”， 如 图 2-11 所 示 。 


依 VirtualBox - 全 局 设 定 
ss 1. 单 击 “ 常 规 ” 选 项 


EYirtualBox_NewPythonBook 


济 
六 丰 江 蒿 | 消 


潞 


志和 学 司 各 吉 删 水 
油 说 


国 国 外 回 @@SOFE 


及 


图 2-11 设置 选项 


人 03 选择 文件 夫 


选择 要 存储 VirtualBox 虚拟 机 文件 的 文件 夹 ， 例 如 选择 我 们 已 经 创建 好 的 E:\VirtualBox， 
选 好 后 单 击 “确定 ”按钮 ， 如 图 2-12 所 示 。 
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浏览 文件 夫 x 


Select a directory 


> MSSQL2008DB 加 


1 StockShares 
Test2013 


tonido 
u_share 
ubuntu 
| _ VirtualBox 
> 1 VirtualB Backup 
Te 


1. 选择 要 存储 VirtualBox 虚 
拟 机 文件 的 文件 夹 


2. 单 击 “确定 ”按钮 


图 2-12 选择 文件 夹 


04 设置 完成 ( 见 图 2-13 ) 


@ Oracle VM VirtualB' 器 

生理 ( 休 Zp VirtualBox - 全 局 设 定 

辆 常规 | | 常规 

O ma pumamonoo[EvmaEn | 
图 本 新 RDP 认 证 库 @): [|] YBoxAuth -| 
@ 二 去 
茸 网 络 
扩展 


代理 2. 单 击 “ 确 定 ” 按 钮 


图 2-13 设置 完成 


凑 引 | 在 virualeox 创建 虚拟 机 


接 下 来 ， 我 们 要 新 建 一 台 虚拟 机 。 
全 Yo1 创建 虚拟 机 


回 到 VirtualBox 启动 后 的 界面 ， 单 击 “ 新 建 ”按钮 ， 就 会 出 现 “新 建 虚拟 电脑 ”对 话 框 ， 
如 图 2-14 所 示 。 
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新 建 虚 拟 电脑 


虚拟 电 | 


济 名 称 和 系统 类 型 


请 选择 新 虚拟 | 

型 * 此 名 称 酝 用 于 标识 此 庶 拟 电脑 - 
名 称 全): |Hadoop 
类 型 (T): Innx 
版 本 (7): Ubuntu (64-bi0 


图 2-14 设置 基本 信息 
人 2 设置 虚拟 机 内 存 的 大 小 ( 见 图 2-15 ) 


< 新建 庶 拟 电 脑 


内 存 大 小 


迁 择 分 配给 虚拟 电脑 的 内 存 大 小 MB) 
建议 的 内 存 大 小 为 768 MB * 


电脑 的 撕 述 名 称 及 要 安装 的 操作 条 统 类 /县 有 新 建 人 


. 输入 机 器 名 称 : Hadoop 
. 选择 类 型 : Linux 
. 选择 版 本 : Ubuntu (64 - bit) 


1. 设置 虚拟 机 内 


存 的 大 小 ， 例 如 设置 
为 4096MB 


2. 单 击 “ 下 一 步 ” 按 钮 


图 2-15 设置 虚拟 机 的 内 存 大 小 


CT03 创建 虚拟 机 硬盘 


选中 “现在 创建 虚拟 硬盘 ” 单 选 按钮 ， 再 单 击 “ 创 建 ” 按 钮 ， 如 图 2-16 所 示 。 
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虚拟 硬盘 


你 可 以 添加 虚拟 硬盘 到 新 虚拟 电脑 中 * 新 建 一 个 庶 拟 硬 
盘 文 件 或 从 列表 或 用 文件 夹 图 标 从 其 他 位 置 适 择 一 个 


如 果 想 更 灵活 地 配置 虚拟 硬盘 ， 也 可 以 跳 过 这 一 步 在 
创建 后 拟 电脑 之 后 在 配置 中 设 定 * 


1. 选中 “现在 创建 虚拟 硬盘 ” 单 选 按钮 


建议 的 硬盘 大 小 为 8.00 GB 


添加 虎 氟 硬盘 中 
@ 现在 创建 虚拟 硬盘 (C) 


全 用 已 有 的 谎 刀 硬盘 文件 0) 
调查 玫 2. 单 击 “ 创 建 ” 按 钮 


图 2-16 ”创建 虚拟 硬盘 
04 选择 虚拟 硬盘 文件 类 型 
选择 虚拟 硬盘 的 文件 格式 ， 默 认为 VDI， 如 图 2-17 所 示 。 


时 x 


创建 虚拟 硬盘 


虚拟 硬盘 文件 类 型 
请 选择 您 想 要 用 于 新 建 虚拟 磁盘 的 文件 类 型 * 如 果 您 不 需要 其 他 


虚拟 化 软件 使 用 它 ， 您 可 以 让 此 设置 保持 不 更 改 状态 * 
[mwauauaawe，| | 1. 选择 默认 VDI 类 型 
5 YMDK ( 哈 拟 机 磁盘 ) 
〇 YHD 二 拟 硬盘 ) 
2. 单 击 “ 下 一 步 ” 按 钮 


〇 HDD (并 口 硬 伪 ) 
专家 根 式 E) | [ 下 一 步 0) ] 。 取消 


OO QED (QEMUD 增强 到 遇 六) 
O Qcow QEMU 等 时 复制) 

图 2-17 选择 虚拟 硬盘 文件 类 型 

人 05 设置 虚拟 硬盘 的 分 配方 式 


设置 虚拟 硬盘 的 分 配方 式 为 “动态 分 配 ”， 如 图 2-18 所 示 。 选 择 动态 分 配 的 好 处 是 不 用 
担心 会 占用 太 多 硬盘 空间 。 虚 拟 硬盘 会 随 着 虚拟 机 扩展 慢 慢 地 增加 存储 空间 。 
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NA 


存储 在 物理 硬盘 上 


估 运 泽 是 建 破 拉 硬 鲍 文 件 是 应 该 为 其 使 必 症 分 天 把 态 分 配 ) , 还 是 应 该 创建 完全 分 
配 ( 匡 定 分 配 }。 


动态 分 配 的 车 沿 柄 二 只 是 亚 渐 三 用 往 玛 要 全 的 空间 (本 至 法 汉 分 配 的 大 小 | . 不 过 
当 其 内 部 空 同 不 用 时 不 会 生动 各 筷 占用 的 物理 硬 钨 空间。 


国定 大 小 的 起 沁 谍 鱼 文件 可 能 在 壬 尝 系 统 中 要 开 很 长 末 同 末 全 时， 但 它 往 往 要 和 
起 来 较 人 。 


1. 选择 “动态 分 配 ” 


图 2-18 设置 分 配方 式 


06 设置 虚拟 硬盘 的 文件 位 置 和 大 小 


接 下 来 ， 设 置 虚拟 硬盘 的 文件 位 置 和 大 小 ， 如 图 2-19 所 示 。 文 件 会 创建 在 之 前 所 设置 的 
默认 文件 夹 中 。 文 件 大 小 设置 为 100GB〈 这 是 上 限 值 ， 实 际 文件 会 动态 增加 到 上 限 为 止 》。 


”创建 虚拟 硬盘 


文件 位 置 和 大 小 


请 在 下 面 的 框 中 键入 新 巡 虚 拟 硬盘 文件 的 名 称 ， 或 单 击 文件 类 图 
标 来 选择 创建 文件 要 保存 到 的 文件 类 * 


Hadoop| 
选择 虚拟 硬盘 的 大 小 * 此 大 小 为 虑 代 友 入 文件 在 实际 硬盘 中 能 轩 1. 选择 大 小 
的 极限 大 小 
2. 单 击 “ 创 建 ” 按 钮 


图 2-19 设置 文件 位 置 和 大 小 
人 IO7 已 经 创建 的 虚拟 机 
创建 完成 之 后 ， 就 可 以 看 到 虚拟 机 的 图 标 了 ， 如 果 2-20 所 示 。 
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章 Oracle VM VirtualBox 管理 器 


- oOo x 
管理 (R 控制 (M) 帮助 (H) 

党 这 和 全 - 居于 D) 回 各 [ 信 志和 RJG) 
新 尘 凡 ) 设 兰 区 污 睹 ”日 动 (T) 


已 经 创建 机 Hadoop 


至 示 

星 存 大 小 2 

运 生 点 面 服务 器 ， 已 于 用 
E23 


控制 器 :IDE 

第 二 IDE 控 市 器 主 通天 [光驱 ] 没 有 盘 片 
ET : 

SATA 满口 0; Hatoop 而 卉 通 8.00 6B) 


图 2-20 创建 好 虚拟 机 
08 虚拟 机 文件 


创建 完成 后 , 在 之 前 设置 的 默认 虚拟 机 文件 夹 中 ，VirtualBox 会 再 帮 文 件 创建 一 个 子 目 录 
Hadoop， 其 中 有 3 个 文件 ， 即 虚拟 机 文件 ， 如 图 2-21 所 示 。 


加 点 面 
时 下 由 
全 OneDrive 


嘱 Hadoop 
Hadoop vbox-prev 
导 Hedoop 


图 2-21 虚拟 机 文件 


4 结论 


本 章 我 们 介绍 了 如 何 安 装 Virtual Box 虚拟 机 软件 , 并 且 创 建 了 Hadoop 虚拟 机 。 下 一 章 ， 
我 们 将 在 Hadoop 虚拟 机 上 安装 Ubuntu 操作 系统 。 
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第 3 章 
Ubuntu Linux 操作 系统 的 安装 


Ubuntu 是 众多 Linux 操作 系统 版 本 中 的 一 种 ， 由 
Canonical 公司 维护 并 发 行 。Ubuntu 来 自 非洲 南部 一 带 ， 意 思 
为 “乐于 分 享 ”。Ubuntu 提供 了 GNOME 桌面 环境 ， 是 一 个 
开放 源码 、 功 能 强大 而 且 免 费 的 操作 系统 ， 可 以 自由 下 载 、 复 
制 、 使 用 甚至 修改 。 除 了 免费 的 操作 系统 本 身 外 ， 其 中 还 包括 
文字 数据 处 理 、 影 音 播放 、 图 像 处 理 、 刻 录 等 各 种 软件 。 

本 章 将 介绍 如 何在 Virtual Box 虚拟 机 上 安装 Ubuntu 
Linux 操作 系统 。 


第 3 章 Ubuntu Linux 操作 系统 的 安装 >》 


Ubuntu Linux 操作 系统 的 安装 


Jo 下载 Ubuntu 的 网 址 


打开 浏览 器 ， 输 入 http://www.ubuntu.com/download/alternative-downloads 网 址 ， 连 接 至 
Ubuntu 官网 ， 下 载 安装 光盘 文件 ， 如 图 3-1 所 示 。 


图 Alternative downl x 


€3CHD 电 窑 
For other versions of the Ubuntu installer plea 
mirror however, we recommend you use the 
other packages are available in Ubuntu Software Centre. 


[# Select the nearest mirror 


Australla France 
Germanm G Ireland 
ietherlan' Ru edei Spain 


3-1 连接 至 Ubuntu 官网 


人 2 选择 镜像 ( Mirror ) 下 载 点 ( 见 图 3-2 ) 


中 Mirrors:Ubuntu x 


€ GC |B Canonical Group Ltd [GB]|https//launchpad.net/ubuntu/+cdmirrors 印字 
TECNOERA i 

TECNOERA Nip cpm 

chins Gobps J11 mirors 

Shenohal joo Tong Univeriiy [er 

Dalian Neusoft University of Information 大 连 东软 信息 学 院 ) p| | pe 
i 选择 比较 近 的 镜像 下 载 点 
UsTe ine user croup http 

Capital Online Data Service http Rp me 1 bps 

Zhejang universy Nip cb 

am ap 两 00Mbps 

Lonzhou Universiy openseakesode hipRp 00Mbps 

China Universly oF Geosclences http roombps 

uazhong Univerity of Sclence and Technology i 

Partin iretite of Technology http oombps 


3-2 ”选择 镜像 下 载 点 
B03 用 筷 标 单 击 要 下 载 Ubuntu 的 网 址 ( 见 图 3-3 ) 
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Ip Tsinghua Univers’ x 
€ 了 CC 人 外 CanonicalGroupLtd [GB]|https://launchpad| 


Archive information 


Owner: Speed: 
ait99. offidal 1Gbps 


Status: 


Type 
CD image 


Last probe 


This mirror was last verified on 2016-05-10. 


单 击 镜像 下 载 点 的 链接 


Mirror location information 


http’//mirrors,tuna.tsinghua.edu.cn/ubuntu-releayés, 


Drsync//mirrors.tuna.tsinghua.edu.cn/ubuntu-releases/ 


图 3-3 单 击 链接 
04 用 鼠标 单 击 选择 14.04 版 本 ( 见 图 3-4) 


本 书 选择 安装 14.04 版 本 的 Ubuntu， 因 为 本 书 命令 与 范例 程序 都 已 经 在 此 版 本 测试 无 误 。 

LTS(CLong Term Support) 是 长 期 支持 的 版 本 。Ubuntu 对 台式 机 (Desktop ) 版 本 提供 3 年 、 
服务 器 〈Server) 版 提供 5 年 的 更 新 支持 ， 因 为 企业 必须 有 稳定 的 环境 ， 每 次 的 版 本 升级 都 
可 能 是 涉及 软 硬 件 配合 的 大 工程 ， 并 且 不 太 可 能 常常 升级 版 本 。 虽 然 不 升级 ， 但 是 仍然 必须 要 
更 新 ， 所 以 选择 LTS 版 本 。 


D Index of /ubuntu- x 


Dn C fH Bhttps://mirrors.tuna.tsinghua.edu.cn/ubuntu-releases/ 


Index of /ubuntu-releases/ 选择 14.04 版 本 


93-Jun-2815 21:11 
93-Jun-2615 21:11 
25-Mar-2916 63:67 
25-Mar-2816 83:87 
22-Apr-2016 13:55 
22-0ct-2815 @9:52 
21-Apr-2816 17:44 
21-Sep-2912 11:18 
21-Aug-2814 15:36 
63-Jun-2915 21:11 
12-May-2916 63:59 
25-Mar-2016 63:67 
vivid/ 22-Apr-2816 13:55 
wily/ 22-0ct-2815 99:52 
21-Apr-2816 17:44 
FOOTER. htn] 91-Feb-2996 18:11 
HEADER. htm} 22-Apr-2916 13:85 
favi 16-Jun-2811 62:46 
robots txt 29-Oct-2969 19:22 


图 3-4 选择 版 本 
人 5 下 载 14.04 版 本 的 iso 文件 ( 见 图 3-5 ) 
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D Index of /ubuntu- x 


4 C 和 首  https://mirrors.tuna.tsinghua.edu.cn/ubuntu-releases/14.0 


Index of /ubuntu-releases/14.04/ 
单 击 下 载 14.04 版 本 的 iso 文件 


AFeb-2016 20:14 27 
8-Feb-2016 29:14 2937 

MOSSUMS 25-Mar-2016 63:67 367 
MD5SUNMS -metalink 18-Feb-2016 29:15 S68 
MD5SUMS -metalink.gpg 18-Feb-2016 29:15 933 
有 25-Har-2016 63:67 933 
25-Mar-2615 63:67 347 

25-Mar-2616 63:67 333 

25-Mar-2816 63:67 467 

25-Har-2616 63:67 933 

17-Feb-2016 23:42 1869547529 
buntu TT. SREOD-a09dET 30 to 18-Feb-2616 29:12 41148 
18-Feb-2615 29:12 2889197 

buntu-14.04.4-desktop-amd64. ist 17-Feb-2615 23:42 4457 
Wbuntu-14.04.4-desktop-amd64.manifest 17-Feb-2616 23:29 60903 
-14.04.4-desktop-amd64 .metalink 18-Feb-2816 29:15 41586 
-i386.iso 17-Feb-2016 23:55 1675669669 


3-5 下 载 文件 


在 Virtual 设置 Ubuntu 虚拟 光盘 文件 


在 物理 计算 机 中 安装 软件 时 就 是 直接 把 光盘 片 放 到 光驱 中 进行 安装 , 在 虚拟 机 中 要 安装 软 
件 时 则 需要 设置 虚拟 光盘 文件 , 告诉 虚拟 机 安装 光盘 在 哪里 , 这 样 虚拟 机 才能 读 取 到 安装 光盘 
文件 。 

接 下 来 ， 设 置 之 前 下 载 的 Ubuntu 虚拟 光盘 文件 ， 告 诉 虚拟 机 安装 光盘 在 哪里 。 


人 To1 设置 虚拟 光盘 文件 ( 见 图 3-6 ) 


按照 下 列 步骤 设置 虚拟 光盘 文件 。 


- 1. 单 击 Hadoop 


本) 第 二 DIE 归于 运 芭 
[mE 


ubuntu-14.04.4-desktop-amd64.iso 
14043-desktop-amd64jso 
PstAdditionsiso 
15.10-desktop-amd64.s0 
14.04 3-desktop-amd64(1) iso 


图 3-6 设置 虚拟 光盘 文件 
B02 选择 Ubuntu 安装 光盘 文件 ( 见 图 3-7 ) 
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霖 请 选择 一 个 虚拟 光盘 文件 
< ~ 个 蝇 ， 本 地 ， 下 载 1. 选择 之 前 所 下 载 的 安装 Ubuntu 的 光盘 文件 
及 下载 加 人 ^ 
国 雪 吕 Wie 总 Ubuntu-14.04.4-desktop-amd64 2016/5, 
es Oneprye 妆 Ubuntu-14.10-desktop-amd64 2016/4/ 
Creative (* 各 Ubuntu-15.10-desktop-amd64 人 
园 图 片 办 总 ubuntu-14.04.3-desktop-amd64(1) 2. 单 击 “ 打 开 ” 按钮 
v < 


国文 件 好 笠 ubuntu-14.04.3-desktop-amd64 (1) 
文件 名 (N): | ubuntu-14.04 4-desktop-am “| | 全 部 主 生 光 生 文件 (dmg *iso 


管理 ~ 


WO 


图 3-7 选择 安装 光盘 文件 
703 选择 虚拟 光盘 文件 ( 见 图 3-8 ) 


加 Hadoop -设置 


i 2 由 1. 设置 完成 后 ， 这 里 就 会 出 现 
系统 
Ra om E550 之 前 选择 的 文件 
3 口 次 示 Qave) 光 盘 () 
侈 声言 国 Bao 本 cr 全 
四 网 络 位 置 。 CAseridevin IniDownjoadymbunt… 
个 和 本 到 - 
办 USB 设 备 
国共 享 文件 夹 


园 用 户 界面 
到 国信 全 
| 


3-8 选择 虚拟 光盘 文件 


人 04 完成 虚拟 光盘 文件 的 设置 ( 见 图 3-9 ) 
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G0) 备 协 [条 师 快 于]G) 


设置 完成 后 ， 这 里 就 会 出 现 之 
前 选择 的 Ubuntu 安装 文件 


BUT =E 


图 3-9 完成 设置 


第 3 章 Ubuntu Linux 操作 系统 的 安装 


站 


| 3.3 ] 开始 安装 Ubuntu 


在 之 前 的 章节 中 ， 我 们 已 经 设置 了 安装 Ubuntu 的 光盘 文件 。 现 在 我 们 要 启动 虚拟 机 。 
人 I01 启动 虚拟 机 ( 见 图 3-10 ) 


加 驶 8D) 加 备份 [ 东 统 快照 ]G) 


1. 单 击 Hadoop 虚拟 机 


名 称 Hadoop 
操作 系统 : Ubuntu (64-biD 
国 条 统 


内 存 大 小 : 4096 MB 

后 动 顺 序 、 软驱 , 光驱 , 硬盘 

硬件 加 速 : YT-wAMD-Y, 谋 大 分 | 
页 , KYM 半 庶 拟 化 | 


图 3-10 启动 虚拟 机 
人 2 选择 安装 Ubuntu 语言 版 本 


接 下 来 选择 安装 Ubuntu 语言 版 本 ， 默 认为 英文 。 你 可 以 按键 盘 上 的 办、 国 箭头 键 选择 安 
装 Ubuntu 语言 版 本 ， 在 此 我 们 选择 “中 文 (简体 ) ”， 如 图 3-11 所 示 。 


. 单 击 “ 安 装 Ubuntu” 按 钮 


EEFT REECE 


图 3-11 选择 语言 
03 选择 是 否 安装 更 新 与 安装 第 三 方 软件 ( 见 图 3-12 ) 
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jh、MP3 和 其 他 媒体， 并 至 动 时 符 图 彩 和 无 线 网 络 硬件 ， 其 中 其 蔚 软 件 是 用 天 的 ， 这 恬 软 件 用 


dor SA MIE MPEG Lrer 3 BEM 


退出 (9) 后 轴 (6) 


3-12 选择 安装 更 新 与 第 三 方 软件 


人 4 选择 “清除 整个 磁盘 并 安装 Ubuntu”( 见 图 3-13 ) 
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1. 单 击 “ 清 除 整个 磁盘 并 安装 Ubuntu” 


装 Ubuntu 
撤 里 机 的 全 部 理 床 、 文 栏 


Encrypt the new Ubuntu installation for security 
下 一 步 ,人 需要 渤 择 一 个 安全 密 家 


Use LVM with the new Ubuntu installation 


这 生动 加 分区 和 理 tVM) , 有 人 时 和 汪 分 大 小 和 功能 . 单 击 “ 现 在 安装 ”按钮 


选项 
自己 创 建 、 调 下 分 区 


或 者 为 Ubuntu 选择 多 个 分 区 


退出 (Q) 后 退 (B) 


图 3-13 清除 整个 磁盘 并 安装 
B05 是 否 “ 将 改动 写 入 磁盘 ”( 见 图 3-14) 


第 3 章 Ubuntu Linux 操作 系统 的 安装 


ncypt| 如果 你 组 续 , 以 下 所 列 出 的 修改 内 容桂 守 写 入 再 全 。 丁 到 您 和 可 以 进行 运 - 
| 
以 下 设备 的 分 区 委 已 福 改 室 
ooo) (sda) 


| 


oA SC (00 


图 3-14 ”确认 将 改动 写 入 磁盘 
C706 选择 机 器 所 在 地 ( 见 图 3-15 ) 


ing. 


petsinching uson 


选择 机 器 所 在 地 


图 3-15 选择 机 器 所 在 地 
TI07 选择 机 器 所 在 地 完成 ( 见 图 3-16 ) 


| 单 布 “级 续 ” 技 钮 入 守 。 
单 击 “ 继 续 ” 按 本 


图 3-16 继续 操作 
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人 08 选择 键盘 布局 方式 ( 见 图 3-17) 


请 特别 注意 键盘 布局 方式 是 “英语 (美国) ”， 而 不 是 “汉语 (SunPinyin) ”。 


1. 选择 “英语 ( 美 


国 )” 2. 单 击 “ 英 语 (美国 )” 


a) -Cherokee 
国 )- English (Colemak) 
四 ) - English (Dvorak, international with dead keys) 
国 ) -English (workman) 

国 ) -English (Workm 
二 (美国 ) -English (nt 


榨 测 旬 入 布 司 


图 3-17 选择 键盘 布局 方式 
09 设置 姓名 、 计 算 机 名 ， 选 择 一 个 用 户 名 并 设置 账号 密码 ( 见 图 3-18 ) 


. 输入 姓名 : hduser 
2. 计算 机 名 : hadoop 
3. 输入 用 户 名 : hduser 
4. 输入 密码 


您 的 姓名 | | hduser 


您 的 计算 机 名 | | hadoop dd 
与 其 他 计算 机 联 姓 时 信用 的 名 称 . 


选择 一 个 用 户 名 
选择 一 个 密码 
确认 您 的 密码 


人 @ 于 录 对 因 要 宝 码 


加 密 我 的 主 目录 


后 退 (B) 


6. 单 击 “ 继 续 ” 按 钮 


图 3-18 设置 登录 项 


G0 开始 安装 
开始 安装 时 的 屏幕 显示 界面 如 图 3-19 所 示 。 
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第 3 章 Ubuntu Linux 操作 系统 的 安装 


安装 (as superusen 


Welcome to Ubuntu 14.10 


图 3-19 开始 安装 
CT11 安装 完成 并 选择 重新 启动 ( 见 图 3-20 ) 


您 需要 重新 启动 计算 机 以 使 用 新 安装 的 系统 。 


单 击 “现在 重启 ”按钮 


图 3-20 选择 重新 启动 
人 EXI2 重新 启动 ( 见 图 3-21 ) 
重新 启动 时 , 等 候 一 段 时 间 后 界面 不 再 改变 。 如 果 系 统 没 有 自动 退出 , 可 以 将 其 强制 退出 。 


车 Hadoop [正在 运行 ] - Oracle VM VirtualBox 
管理 ”控制 视图 者 履 设备 帮助 


加 司 瘟 乡 瑟 国 灶 回合 加 xiatch 


图 3-21 重新 启动 


人 ET 强制 退出 
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强制 退出 的 方法 如 图 3-22 所 示 。 


入 Hadoop [ 正 : Oracle VM VirtualBox 


1. 单 击 “ 管 理 ” 菜 单 


. 单 击 “ 退 出 ”选项 


图 3-22 ”强制 退出 菜单 操作 


1. 选择 “强制 退出 ” 


2. 单 击 “ 确 定 ”按钮 


图 3-23 退出 


选项 


3 启动 Ubuntu 


在 之 前 的 步骤 中 我 们 已 经 完成 了 Ubuntu 的 安装 ， 现 在 要 开机 了 。 


第 3 章 Ubuntu Linux 操作 系统 的 安装 > | 


人 01 启动 Ubuntu ( 见 图 3-24) 


章 Oracle VM VirtualBox 管理 器 
管理 (P) ”控制 (M) 帮助 (H) 


六 党 


靳 畦 他 ) ”设置 信 ) 污 除 


加 明 有 OD) 回 备份 [ 东 统 快照]S) 
回 党 规 加 预览 


名 称 : Hadoop 

操作 系统 Ubuntu (64-bi0 
国 条 统 

内 存 大 小 : 4096 MB 

则 动 顺序 。 软驱 , 光驱 , 硬盘 


YT-WAMD-T, 谋 厌 分 
页 ,KYM 站 度 拟 化 


1. 单 击 虚 拟 机 


图 3-24 启动 Ubuntu 


人 2 输入 密码 ( 见 图 3-25 ) 


罚 Hadoop [正在 运 cle VM VirtualBox 中 和 
管理 控制 视 加 热 锯 设备 帮助 


输入 密码 


hduser 


Ubuntue 14.04 LTS 


回避 刍 依 同 回 久生 全 加 ric 


图 3-25 输入 密码 
重新 启动 虚拟 机 后 ， 系 统 会 要 求 输入 之 前 设置 的 密码 ， 然 后 按 Enter 键 即 可 。 


区 元 如 果 输 入 密码 一 直 不 成 功 , 而 且 输 入 时 文字 有 下 划 线 , 就 有 可 能 是 系统 自动 切换 至 中 文 输 
| ”入 法 了 , 从 而 无 法 输入 密码 。 可 以 先 按 Ctrl + Shift 组 合 键 切换 输入 法 为 英文 , 再 输入 密码 。 


安装 增强 功能 


Ubuntu 安装 基本 上 已 经 完成 了 ， 只 是 还 有 一 些 问题 : 
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@ 屏幕 分 辩 率 不 够 。 
@ 所 标 光 标 停 地 站 壕 。 
@。 ”无 法 与 原 安装 系统 共享 剪贴 板 。 


这 些 问题 必须 安装 增强 功能 (Guest Additions) 才能 解决 ， 本 节 将 介绍 安装 增强 功能 的 步骤 。 
人 To1 插入 GuestAdditions 光盘 


在 菜单 中 依次 选择 “设备 ”一 “安装 增强 功能 ”， 如 图 3-26 所 示 。 注 意 : 有 的 系统 会 显 
示 “ 插 入 Guest Additions CD 映像 ”， 而 不 是 “安装 增强 功能 ”， 两 者 是 一 


个 意思 。 


图 Hadoop [正在 运行] - Q 
管理 控制 视图 的 8 
Ubuntu 桌面 


共享 文件 实 
共享 粘贴 板 
拖 放 


2. 选择 “安装 增强 功能 ”选项 


增强 功能 电 所 在 虚拟 光盘 CE A AIL 


图 3-26 选择 菜单 项 
人 2 运行 Guest Additions CD 光盘 ( 见 图 3-27) 


轿 Hadoop [ OradeVM VirtualBox 
管理 控制 视图 热 键 设备 帮助 


“VBOXADDITIONS_5.0.20_106931" 包 含 打算 自动 启动 的 软件 。 Ne 
是 否 想 要 运行 它 了 


如 果 你 不 信任 该 位 置 或 不 确定 ， 请 技 取 消 . 


插入 Guest Additions CD 后 ， 系 统 会 自 
动 运 行 ， 单 击 “ 运 行 ” 按 钮 


辐 回 禄 加 多 加 Rercu 
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人 63 输入 超级 用 户 密码 


因为 安装 Guest Additions CD 光盘 程序 必须 具有 超级 用 户 的 权限 ， 所 以 要 输入 之 前 设置 的 
密码 (提示 : 输入 密码 时 请 确认 当前 输入 模式 是 中 文 还 是 英文 ， 如 果 是 中 文 ， 请 按 Ctrl + Shift 
组 合 键 切换 回 英文 模式 ， 以 免 输入 密码 错误 )， 如 图 3-28 所 示 。 


园 Hadoop 运行 ] - Oracle VM VirtualBox 
管理 ”控制 视图 热 键 设备 帮助 


要 以 超级 用 户 的 身份 运行 “/bin/sh" 程序 ， 您 必须 通过 验 | 


> 详情 (D) 2. 单 击 “ 授 权 ” 按 钮 


TFTTTTEET 


园 四 团 户 局 园 昧 国人 候 加 Ristcu 
图 3-28 ”输入 超级 用 户 密码 


人 4 若 密 码 输 入 成 功 ， 则 会 出 现 安装 Guest Additions CD 光盘 程序 的 界面 


出 现 “Press Return to close this window” 代 表 已 经 安装 完成 ( 见 图 3-29) 。 


匡 库 @@ Osaucu 


图 3-29 ”安装 完成 
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《205 关机 ( 见 图 3-30) 


国 Hadoop [ 


管理 


- Oracle VM VirtualBox - OO 
控制 视图 热 键 设备 帮助 

人 而 四 21:56 
VirtualBox Guest Additions installati 。 关于 这 台 计算 机 


Verifying archive integrity..。ALL god Ubuntu 帮助 
Uncompressing VirtualBox 5.6 < 


We 1 单 击 “设置 ”图 标 
Copying additional installer 
Installing additional modules 
Removing existing ViLrtuaLBox non-DKMS 
Building the VirtualBox Guest Additiot 
The headers for the current running kt 
he following 

module compilation fails then this col 


客人 会 


® 旦 hduser 


Building the main Guest Additions modi 

Building the shared folder support module ...done. 

Building the graphics driver module ...done. 

Doing non-kernel setup of the Guest Additions ...done. 

You should restart your guest to make sure the new modules are 
actually used 


Press Return to close this window... 
吕 
园 四 印 少 本 加 时 回合 加 Ristcu 
图 3-30 关机 


CT06 最 后 确认 “关机 ”或 “重新 启动 ”( 见 图 3-31 ) 
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图 Hadoop [正在 运行 ] - Oracle VM VirtualBox - 口 x 


管理 


控制 视图 热 键 设备 帮助 


ditions ii 


定 关闭 所 有 程序 并 关机 吗 ? 


园 外 本 少 司 辐 时 回合 回 Ristctu 
图 3-31 确认 关机 或 重新 启动 


i“ 关 机 ”选项 


第 3 章 Ubuntu Linux 操作 系统 的 安装 < 


与 原 安装 系统 共享 剪贴 板 。 共 享 剪贴 板 的 方法 会 在 后 续 章 节 中 进行 介绍 。 


重新 启动 后 ,你 会 发 现 屏幕 分 辩 率 不 够 、 鼠 标 光 标 停 顿 延迟 的 问题 已 经 解决 , 但 是 仍 无 法 


攻 设置 黑 认输 和 法 


在 Ubuntu 需要 输入 文字 的 地 方 默认 使 用 的 输入 法 是 中 文 ， 可 是 我 们 大 部 分 情况 都 是 输入 
命令 或 程序 ， 这 些 都 是 英文 ， 必 须 自行 切换 输入 法 ， 这 样 很 不 方便 ， 所 以 最 好 将 默认 输入 法 改 


人 I01 系统 设置 
请 参照 图 3-32 所 示 的 方法 打开 “系统 设置 ”窗口 。 


2. 单 击 “系统 设置 ”选项 


三 襄 支持 在 线性 户 


安全 和 隐私。 开展 和 铺 忆 


打开 文本 输入 窗口 


图 3-32 系统 设置 


本 B02 文本 输入 窗口 ( 见 图 3-33 ) 


打开 “文本 输入 ”窗口 ， 默 认 的 文本 输入 是 “汉语 (SunPinyin)”。 


切换 到 下 一 个 源 ,使用 
汉语 (sunpinyin) Super4 空 格 
切换 到 之 前 的 源 ， 使 用 : 


Shift+Super+ 空 格 


便 用 的 窒 入 源 


人 所 有 窗口 使 用 相同 源 
允许 矢 个 窗口 不 司 源 


星 示 输 入 线 选 词 : 


喇 
四 


了 便 用 自 定义 字体 


在 菜单 栏 显示 当前 输入 源 


图 3-33 文本 输入 


“文本 输入 "图标 ， 
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人 03 在 “选择 一 个 输入 源 ” 对 话 框 中 选择 输入 源 ( 见 图 3-34) 


便 用 的 裕 人 源 [| 
pe 选择 一 个 要 添加 的 输入 下 
汉语 (SunPinyin) EI TE 因 际 7 无 汇 证 


英语 (Madintosh) 


| 做 FE 
英语 (美国 ,国际 ， 有 死 刍 ) 
英语 (美国 ， 痢 代 ,国际 ) 
于 语 (南非 ) 
英语 (尼日利亚 ) 


图 3-34 选择 输入 源 
G04 调整 给 入 源 的 顺序 ( 见 图 3-35 ) 


2. 将 添加 的 “英语 (美国 )” 调 整 到 最 上 层 


切换 到 下 一 个 源 , 使用 
Super+ 空 格 
汉语 (SunPinyin) 切换 到 之 前 的 源 ， 便 月 


Shift+Super+ 空 格 


1. 可 使 用 回 j 和 加] 控 钮 来 


调整 输入 法 的 顺序 


旦 去 输入 候选 词 


使 用 自 定义 字体 ; 


在 东单 栏 星 示 当前 输入 源 


图 3-35 ”调整 输入 源 的 顺序 
人 5 设置 默认 快捷 键 ( 见 图 3-36) 


切换 下 一 个 输入 法 的 默认 快捷 键 是 Super + 空格 ,如 图 3-36 所 示 。Ubuntu 系统 中 的 Super 
键 对 应 到 Windows 系统 就 是 坷 键 。 这 与 我 们 在 Windows 中 的 使 用 习惯 不 符 ， 可 以 参考 图 
3-37、 图 3-38 来 设置 快捷 键 。 
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;使 用 


使 用 的 输入 源 : 
ET | 


切换 到 之 前 的 源 ,使 用 


汉语 (Sunpinyin) 


ry 


在 问 单 栏 显 示 当前 输入 源 


Shift+super+ 空 格 


人 所 有 国 口 使 用 相同 源 
允许 每 个 画 口 不 同 源 


显示 输入 候选 词 : | 垂直 


便 用 自 定义 字体 


图 3-36 


默认 快捷 键 


使 用 的 输入 源 


汉语 (SunPinyin) 


击 “ 新 快捷 


i 


在 菜单 栏 显 示 当 前 输入 源 


切换 到 下 一 个 源 ， 使 用 


切换 到 之 前 的 源 . 使 用 
Shift+Super+ 空 格 


人 @ 所 有 窗口 伺 用 相同 源 
允许 每 个 窗口 不 同 源 


星 示 输入 候选 词 : | 委 直 


使 用 自 定义 字体 


汉语 (sunpinyim) 


按 Ctrl+ 空 格 


设置 新 快捷 键 


在 菜单 栏 显示 当前 输入 源 


使 用 的 输入 驶 
切换 到 之 前 的 源 ， 使 用 : 


图 3-37 修改 快捷 键 


切换 到 下 一 个 源 , 使 用 : 


Shift+super+ 空 格 


@ 所 有 窗口 使 用 相同 源 
允许 每 个 窗口 不 同 源 


显示 输入 企 选 词 : “垂直 


站 使 用 自 定义 字体 : 


图 3-38 


设置 快捷 键 为 Ctrl+ 空 格 
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本 设置 “终端 ” 程序 


“终端 ”程序 (terminal) 可 用 于 执行 Linux 命令 ,直接 对 Ubuntu 下 达 命 令 。 安 装 Hadoop 
时 也 必须 使 用 ”程序 。 在 本 书 示范 介绍 过 程 中 会 常常 用 到 “终端 ”程序 .了 方便 使 用 ， 
下 面 先 设置 “终端 ”程序 的 快捷 图 标 。 


J01 查找 应 用 程序 ( 见 图 3-39 ) 


1. 单 击 此 按钮 开始 查找 


Oracle VM VirtualBox 


3. 出 现 “ 终 端 ” 程序 图 标 


图 3-39 查找 应 用 程序 


人 ER2 把 “终端 ”程序 图 标 拖 慢 到 快捷 工具 栏 ( 见 图 3-40 ) 


图 3-40 ” 拖 动 到 快捷 工具 栏 


03 启动 “终端 ”程序 
启动 “终端 ”程序 有 以 下 两 种 方式 〈 见 图 3-41 )。 
(1) 单 击 快捷 工具 栏 上 的 “终端 ”程序 图 标 。 
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(2) 使 用 快捷 键 Ctrl + Alt +T。 


管理 ”控制 视图 
件 (F) 编辑 (E) 查看 
hduser@hadoop: ~ 
hduser@hadoop:~$ 目 


2. 可 以 在 此 “终端 ” 程 
序 提示 符 处 输入 命令 


1. 单 击 图 标 或 按 快捷 键 
Ctrl+Alt+T 就 可 以 启动 


“终端 ”程序 


图 3-41 两 种 启动 方法 


用 户 可 以 将 “终端 ”程序 设置 为 自己 习惯 的 方式 。 例如 
修改 为 白 底 黑 字 。 本 书 范例 中 “终端 ”程序 都 是 以 白 底 呈 


I01 配置 文件 首选 项 ( 见 图 3-42 ) 


hduser@hadoop: ~ 


hauser@hadoop:-s [] i 鸡 程序 窗口 区 域内 单 击 
鼠标 右键 ， 就 会 出 现 快捷 菜单 


2. 在 快捷 菜单 


3. 选择 “配置 文 
选项 ” 


。 Default 


配置 文件 首选 项 (0) 件 首选 


图 342 配置 文件 首选 项 
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人 2 选择 白旗 黑 字 ( 见 图 3-43 ) 


宫 规 “标题 和 命令 | 上 色 | 码 系 党 动 甘 奉 性 


前 景色 、 蕴 景色 、 加 粗 和 下 划 绪 1. 内 置 颜色 组 合 ， 选 
站 俐 用 厌 红 主题 中 的 虹 (U) 
二 择 “ 白 底 黑 字 ” 


文本 归公 (1) 。 | 国有。 各 信条 全 (D) : 狂 喇 ”四 与 文本 新 色 相同 (s) 


冶 反 是 凶 (加 


调 色白 
让 本 : 和 总 本 未 可 肌 下 区 至 记 


内 下 方案 侣 。 自 证》 3 2. 单 击 “ 关 闭 ” 按 钮 


调 色 板 (A) 


帮助 ( 


图 3-43 设置 内 置 方案 
G03 已 设置 “终端 ”程序 的 颜色 组 合 


设置 完成 后 ，“ 终 端 ”程序 的 颜色 组 合 为 白 底 黑 字 ， 效 果 3-44 所 示 。 


图 3-44 显示 效果 


古 习 设置 共享 剪贴 板 


在 此 说 明 共 享 剪贴 板 功能 的 方法 ,例如 ,原本 计算 机 安装 的 是 Windows 7 或 者 Windows 10， 
使 用 VirtualBox 安装 Ubuntu， 则 共享 剪贴 板 功能 可 以 让 你 在 Windows 系统 中 复制 内 容 ， 然 后 
粘贴 于 Ubuntu。 反 之 亦 然 ， 也 可 以 在 Ubuntu 中 单 击 复制 ， 然 后 在 Windows 中 单 击 粘贴 。 这 
个 功能 很 方便 ， 特 别 是 在 “终端 ”程序 需要 输入 命令 时 ， 可 以 使 用 复制 /粘贴 节省 很 多 时 间 ， 
同时 也 避免 了 输入 错误 。 注 意 ， 在 设置 共享 剪贴 板 之 前 ， 要 参照 第 3.5 节 的 说 明 先 安装 增强 功 
能 (完成 Guest Additions 的 安装 )。 


人 ET 设置 共享 剪贴 板 ( 见 图 3-45 ) 
注 : Windows 操作 系统 中 统一 都 称 为 “剪贴 板 ”， 但 是 在 Ubuntu 操作 系统 的 中 文 版 中 翻 
译 成 了 “粘贴 板 ”， 在 本 书 中 ， 我 们 还 是 统一 用 “剪贴 板 ”， 只 是 在 说 明 Ubuntu 插图 中 使 用 
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车 Hadoop [EE ade 
管理 控制 视图 范 包 | 运 呈 | 再 


主机 到 庶 记 机 
虚拟 机 到 主机 


图 3-45 设置 共享 剪贴 板 
人 2 在 Windows 系统 中 复制 
例如 ， 复 制 文字 “java-version”， 如 图 3-46 所 示 。 


选择 复制 内 容 ， 然 后 按 Ctrl + 
sudo apt-get update C 组 合 键 复制 文字 
sudo apt-get install default-jdk 


java -version 


update-alternatives --display java 


图 3-46 复制 文字 
人 3 在 “终端 ”程序 中 粘贴 


可 以 使 用 下 列 两 种 方式 粘贴 之 前 复制 的 文字 : 在 “终端 ”程序 中 单 击 鼠 标 右 键 , 然后 单 击 
“粘贴 ”选项 〈 见 图 3-47); 或 者 按 Ctrl + Shift + V 组 合 键 。 


hduser@hadoop: 
hduser@hadoog: 


图 347 粘贴 文字 
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人 4 完成 粘贴 


如 图 3-48 所 示 ， 已 经 粘贴 了 java -version 命令 ， 按 Enter 键 即 可 开始 运行 。 


hduser@master: ~ 


hduser@master:~$ 
hduser@master:~$ java -version 


图 3-48 完成 粘贴 


设置 最 佳 下 载 服务 器 


后 续 我 们 会 使 用 apt-get 安装 或 更 新 软件 有 时 因为 下 载 服务 器 连接 的 问题 而 导致 安装 或 
更 新 出 现 错误 ， 为 了 确保 能 够 正确 安装 或 更 新 软件 ， 请 按照 下 列 步骤 设置 最 佳 下 载 服务 器 。 


01 系统 设置 ( 见 图 3-49 ) 


图 Hadoop [正在 运行 ] - Oracle VM VirtualBox - OO x 
管理 控制 视图 热狗 设备 帮助 


1. 单 击 系统 设置 图 标 


2. 单 击 “ 系 统 设置 


旦 客人 会 话 


图 3-49 选择 “系统 设置 ” 
人 2 单 击 “ 软 件 与 更 新 ”( 见 图 3-50 ) 


六 遇 司 ss 癌 


Wacom 手 瑟 板 。 打印 机 员 标 可 钥 扫 版 be 苦 牙 刍 企 电 洪 


备份 


ULandscape 用 户 旦 号 
服务 


单 击 “ 软 件 与 更 新 ” 


时 他 与 日 期 。 ”通用 畏 助 功 院 
BOFSaSs0 OO 


图 3-50 单 击 “ 软 件 与 更 新 ” 
303 单 去 “下 载 自 ”下 三 角 按钮 ( 见 图 3-51 ) 
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留 - 5 软件 和 更 新 
Ubuntu 软件 ”其它 软件 更 新 身份 验证 附加 驱动 
可 从 互联 网 下 载 
Canonical 支持 的 免费 和 开源 软件 (main) 
社区 维护 的 免费 和 开 淹 软件 (universe) 
设备 的 专 有 驱动 (restricted) 
有 版 权 和 合法 性 问题 69 的 软件 (multiverse) 


图 浙 代 三 
es 单 击 “ 下 载 自 "下 三 角 按钮 
可 从 光 葬 安装 
Ubuntu 14.04 'Trusty Tahr 光 盐 
官方 支持 
版 权 受 限 


还 原 (V) | 关闭 (QO 
图 3-51 单 击 下 三 角 按 钮 


全 FT04 从 下 拉 荣 单 中 选择 “中 国 的 服务 器 ”( 见 图 3-52 ) 
图 -0 软件 和 更 新 
Ubuntu 软件 “其它 软件 “更 新 “身份 验证 “附加 驱动 


可 从 互联 网 下 载 
Canonical 支持 的 免费 和 开源 软件 (main) 


社区 维护 的 免费 和 开 海 软件 (universe) 
设备 的 专 有 驱动 (restricted) 
有 版 权 和 合法 性 问题 8 的 软件 (multiverse) 


图 浙 代 三 
单 击 “ 下 载 自 ” 三 角 按钮 ， 
可 从 光 灰 安装 选择 其 中 的 “中 国 的 服务 
Ubuntu 14.04 'Trusty Tahr 光 盐 器 ”选项 
官方 支持 


版 权 受 限 | 


图 3-52 ”选择 “中 国 的 服务 器 ” 
人 5 选择 最 佳 服 务 器 ( 见 图 3-53 ) 
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选择 下 载 服务 器 


CT 选择 最 佳 的 服务 器 
中 国 


ftp.sjtu.edu.cn 
mirror.bjtu.edu.cn 
mirror.lzu.edu.cn 
mirror.neu.edu.cn 
mirrors.163.com 
mirrors.aliyun.com 
mirrors.sohu.com 


协议 ” 
取消 (9 | 大 生生 报 务 
图 3-53 选择 最 佳 服 务 器 
人 6 测试 下 载 服务 器 ( 见 图 3-54 ) 
系统 会 经 过 一 连 串 测试 ， 帮 我 们 找 出 最 佳 服务 器 。 


mirrors.ubuntu.com 选择 最 佳 服务 器 (5) 
中 国 


ftp. 
min 


mi 测试 下 载 服务 器 


mirl 


mir| 将 执行 一 系列 的 冰 汪 以 绕 出 最 适 全 您 所 在 位 置 的 贸 像 让 点 。 


mi 
mir| 


协议 


取消 (QQ 
图 3-54 测试 下 载 服务 器 
人 7 选择 服务 器 ( 见 图 3-55 ) 


mirrors.ubuntu.com 选择 最 佳 服务 器 (5) 
中 国 


ftp.sjtu.edu.cn 
mirror.bjtu.edu.cn 
mirror.lzu.edu.cn 
mirrorneueducn 
mirrors.163.com 


1. 系统 可 能 会 选 定 的 服务 器 


ET 2. 单 击 “选择 服务 器 ” 
FE 


图 3-55 选择 服务 器 
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人 8 输入 系统 管理 员 密码 ( 见 图 3-56 ) 


要 更 改 软件 源 设置 ， 必 须 通过 身份 验证 。 
多 ”一 个 程序 正 试图 执行 一 个 需要 特权 的 动作 。 要 求 授权 以 执行 该 动作 。 


密码 (P) : 1. 输入 系统 管理 员 密码 
上 尝 便 ) 
取消 (C) 2. 单 击 “ 认 证 ”按钮 


图 3-56 输入 系统 管理 员 密 码 


G309 单 直 “关闭 ”按钮 ( 见 图 3-57 ) 
名 - 5 软件 和 更 新 
Ubuntu 较 件 ”其 它 软件 更 新 身份 验证 附加 驱动 
可 从 互联 网 下 载 
Canonical 支 持 的 免费 和 开源 软件 (main) 
社区 维护 的 免费 和 开 遂 软件 (universe) 
设备 的 专 有 驱动 (restricted) 
有 版 权 和 合法 性 问题 的 的 软件 (multiverse) 
图 淹 代 三 


可 从 光 绒 安装 
Ubuntu 14.04 "Trusty Tahr 光 盐 
官方 支持 
版 权 受 限 


还 听 V) 2. 单 击 “ 关 闭 ” 按 钮 


图 3-57 单 击 “ 关 闭 ” 按 钮 
C10 单 击 “重新 载 入 ”按钮 ( 见 图 3-58) 


@ 可 用 软件 的 列表 信息 已 过 时 


要 通过 新 加 入 或 已 变更 的 软件 源 来 安装 或 更 新 软件 包 ， 您 必须 重新 载 入 可 用 软件 包 
列表 。 


您 需要 一 个 有 效 的 互联 网 连接 才能 继续 。 


图 3-58 重新 载 入 


ET 更 级 存 
单 击 “ 重 新 载 入 ”会 更 新 缓存 ， 如 图 3-59 所 示 。 
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> 正在 更 新 缓存 
ER 
正在 从 mirrors.aliyun.com 下 载 


"详情 


取消 (O 


图 3-59 更 新 缓存 


2 完成 回 到 桌面 ( 见 图 3-60) 


EET EE 


图 3-60” 回 到 桌面 


3:11 结论 


本 章 我 们 介绍 了 如 何 安装 Ubuntu 操作 系统 。 下 一 章 ， 我 们 将 在 Hadoop 虚拟 机 上 安装 
Hadoop Single Node Cluster。 
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Hadoop Single Node 
Cluster 的 安装 
Hadoop Single Node Cluster 只 以 一 台 机 器 来 建立 Hadoop 


环境 ， 我 们 仍然 可 以 使 用 Hadoop 命令 ， 只 是 无 法 发 挥 使 用 多 
台 机 器 的 威力 。 


寿 :， Python+Spark 2.0+Hadoop 机 器 学 习 与 大 数据 实战 


Hadoop Single Node Cluster 只 有 一 台 服 务 器 ， 所 以 所 有 功能 都 集中 在 这 台 服 务 器 中 ， 如 图 
4-1 所 示 。 


MapReduce? (YARN) HDFS 

® Resource Manager 口 | @ NameNode 

® Node Manager | ® Secondary NameNode 
® DataNode 


图 4-1 采用 单个 节点 的 Hadoop 集群 示意 图 
安装 步骤 如 表 4-1 所 示 。 
表 4-1 安装 步骤 
顺序 ”安装 步骤 说 明 


| | 安装 JDK | 因为 Hadoop 是 使 用 Java 开发 的 ， 所 以 必须 先 安装 JDK 


设置 SSH 无 密码 登录 nn SSH 与 本 地 计算 机 以 及 其 他 主机 连接 ， 所 以 必须 


下 载 安装 Hadoop 到 Hadoop 官网 下 载 Hadoop 2.6.4， 并 安装 到 Ubuntu 中 
设置 Hadoop 环境 变量 。 | 设置 每 次 用 户 登录 时 必须 要 设置 的 环境 变量 


在 Hadoop 的 /usr/local/hadoop/etc/hadoop 目录 下 有 很 多 配置 设置 文 
d 
Hadoop 配置 文件 的 设置 | 件 ， 通 过 编辑 这 些 文件 来 启用 基本 或 是 更 高 级 的 功能 
-| HDFS 目录 是 存储 HDFS 文件 的 地 方 ， 在 启动 Hadoop 之 前 必须 先 
围 创建 并 格式 化 HDFS 目录 | 创建 并 格式 化 HDFS 目录 
启动 Hadoo 全 部 设置 完成 就 可 以 开始 启动 Hadoop， 并 查看 Hadoop 相关 进程 是 
否 已 经 启动 


Hadoop 界面 可 以 让 我 们 查看 当前 Hadoop 的 状态 : Node 节点 、 应 
用 程序 、 任 务 运行 状态 


打开 Hadoop Web 界面 


> Hadoop 2.6 Single Node Cluster 安装 命令 

以 下 安装 过 程 中 所 需要 输入 的 命令 我 们 已 整理 在 与 本 书 有 关 的 博客 文章 中 。 当 练习 安装 
时 ， 可 以 复制 博客 文章 中 的 命令 ， 然 后 粘贴 到 “终端 ”程序 中 。 这 样 既 可 以 节省 打字 的 时 间 ， 
也 不 用 担心 输出 命令 (如 果 无 法 在 VirtualBox 虚拟 机 的 Ubuntu“ 终端” 程序 中 进行 复制 和 粘 
贴 操作 时 ， 请 参考 第 3.9 节 的 说 明 设 置 好 VirtualBox 的 共享 剪贴 板 )。 本 书 博客 的 网 址 为 : 

http://blog.sina.com.cn/hadoopsparkbook 


医 安装 JDK 


因为 Hadoop 是 以 Java 开发 的 ， 所 以 必须 先 安装 Java 环境 。 
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人 ET 启动 “终端 ”程序 


接 下 来 , 我 们 将 使 用 “终端 ”程序 下 达 命 令 来 安装 Hadoop, 所 以 要 先 启动 “终端 ”程序 。 
我 们 可 以 单 击 快捷 工具 栏 的 “终端 ”程序 图 标 或 使 用 快捷 键 Ctrl + Alt+ 工 启动 “终端 ”程序 ， 
如 图 4-2 所 示 。 


2. 可 以 在 此 “终端 ”程序 
提示 符 后 输入 命令 


1. 单 击 图 标 或 按 快捷 键 Ctrl + 
Alt+T 启 动 “终端 ”程序 


图 4-2 启动 “终端 ”程序 
人 2 查看 当前 Java 版 本 
在 “终端 ”程序 的 提示 符 后 输入 以 下 命令 并 按 Enter 键 来 运行 。 
> 查看 当前 Java 版 本 


Java -version 


行 结果 如 图 4-3 所 示 。 


hduser@hadoop: ~ 


hduser@hadoop: 省 有 查看 当前 Java 版 本 
程序 java, Bee H 


gcj-4. 8- je headless 六 此 全 
* openjdk-7-jre-headless 出 现 这 些 信 息 代 
* gcj-4.6-jre-headless 尚未 安装 

* openjdk-6-jre-headless 表 尚 未 安装 
请 尝试 : sudo apt-get install < 选 定 的 软件 包 > 
hduser@hadoop:~$ 


图 4-3 查看 当前 Java 版 本 


人 3 sudo apt-get update 


在 Linux 中 既 可 使 用 apt 进行 软件 包 的 管理 , 也 可 使 用 apt-get 下 载 安装 软件 包 (或 称 为 套 
件 ) 。 在 这 里 我 们 会 使 用 apt-get 安装 jdk。 不 过 ， 在 安装 之 前 ， 为 了 获取 最 新 的 软件 包 版 本 ， 
必须 先 运行 apt-get update。 此 命令 会 连接 到 APT Server， 更 新 软件 包 信息 。 

运行 apt-get 必须 具有 superuser (超级 用 户 ) 权限 ， 可 是 superuser 权限 很 大 ， 为 了 安全 性 
考虑 ， 一 般 我 们 在 运行 时 不 会 以 superuser 来 登录 系统 。 我们 可 以 在 命令 前 加 上 sudo 命令 , 系 
统 会 询问 superuser 密码 (安装 时 输入 的 密码 ) , 这 样 就 可 以 获得 superuser 权限 。 可 在 “终端 ” 
程序 提示 符 下 输入 后 面 的 命令 。 
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> ”连接 到 APT Server， 更 新 软件 包 信息 
sudo apt-get update 


运行 后 如 果 显 示 图 4-4 所 示 的 界面 ,系统 会 让 我 们 输入 hduser 密 码 (安装 时 输入 的 superuser 
密码 ) ,输入 完成 后 按 Enter 键 ， 系 统 就 会 开始 获取 最 新 更 新 的 软件 包 、 相 关 文 件 的 对 应 列表 。 


hduser@hadoop: ~ 


~$ sudo apt-get update | 
or 


/cn.archtve.ubuntu.com trusty InRelease 
/cn.archive.ubuntu.com trusty-updates InRelease 
/cn.archive.ubuntu.com trusty-backports InRelease 
://cn.archive.ubuntu.com trusty Release.gpg 

获取 : 1 http://security.ubuntu.com trusty-security InRelease [65.9 kB] 


图 4-4 更 新 软件 包 信息 


4 Install IDK 
在 “终端 ”程序 提示 符 下 输入 以 下 命令 : 


> ”使 用 apt-get 安装 JDK 
sudo apt-get install default-jdk 


运行 后 显示 如 图 4-5 所 示 的 界面 ， 系 统 会 响应 : 将 要 占用 39MB 存储 空间 ,询问 是 否 要 继 


;要 进行 ， 则 输入 Y 后 按 Enter 键 。 


会 
ca-certificates-java default-jre default-jre-headless fonts-dejavu-extra 
java-common libatk-wrapper-java libatk-wrapper-java-jni libbonobo2-© 
libbonobo2-common libgconf2-4 libgif4 libgnone2-0 libgnone2-bin 
LLbgnomez-common ltbgnonevfs2-0 libgnomevfs2-conmon ltbtce-dev ttbtdt-common 
libidle liborbit-2-0 liborbit2 libpthread-stubse-dev libsctp1 libsm-dev 
libx11-dev libx11-doc libxau-dev Libxcbl-dev Litbxdmcp-dev Libxt-dev 
lksctp-tools openjdk-7-jdk openjdk-7-jre openjdk-7-jre-headless tzdata 
tzdata-java xllproto-core-dev xllproto-tnput-dev xllproto-kb-dev 
xorg-sgmL-doctoots xtrans-dev 

建议 安装 的 软件 包 
equivs libbonobo2-bin desktop-base libgnomevfs2-bin libgnomevfs2-extra ganin 
fam gnone-mine-data libice-doc libsm-doc libxcb-doc Libxt-doc openjdk-7-demo 
openjdk-7-source vtsuatvm icedtea-7-plugin icedtea-7-jre-janvn 
sun-java6-fonts fonts-ipafont-gothic fonts-ipafont-mincho ttf-wqy-mtcrohet 
ttf-wqy-zenhet ttf-telugu-fonts ttf-oriya-fonts ttf-kannada-fonts 
ttf-bengali-fonts 

下 列 【新 】 软 件 包 将 被 安装 
ca-certificates-java default-jdk default-jre default-jre-headless 
fonts-dejavu-extra java-common libatk-wrapper-java Libatk-wrapper-java-jni 
Libbonoboz-6 libbonobo2-comnon libgconf2-4 libgif4 Litbgnome2-6 libgnome2-bin 
libgnome2-common libgnomevfs2-8 libgnomevfs2-common libice-dev libidl-common 
libidle liborbit-2-e liborbit2 libpthread-stubse-dev libsctp1 libsm-dev 
libx1il-dev libx11-doc libxau-dev Ltbxcbl-dev libxdncp-dev Libxt-dev 
lksctp-tools openjdk-7-jdk openjdk-7-jre openjdk-7-jre-headless tzdata-java 
xllproto-core-dev xllproto-itnput-dev xllproto-kb-dev xorg-sgml-doctools 
xtrans-dev 


软件 包 ， 有 1967 个 软件 包 未 被 
2. 输入 YY 再 按 Enter 键 


ey 
MB/62.4 MB 的 软件 包 。 

和 会 消 趁 提 外 空间 

您 希望 继续 执行 吗 ?_[Y/n] 


图 45 安装 JDK 
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I05 再 次 查询 Java 版 本 
再 一 次 在 “终端 ”程序 的 提示 符 下 输入 以 下 命令 : 
> 查询 Java 版 本 


Java -version 


hduser@hadoop: ~ 


系统 响应 已 安装 的 Java 版 本 时 代表 已 经 成 功 安装 了 JDK， 如 图 4-6 所 示 。 
Ihduser@hadoop:~$| java -version | 


1. 查看 Java 版 本 


lOpenJDK Runtime Environment (IcedTea ul161-2.6.6-gubuntu6.14.04.1 


lOpenJDK 64-Bit Server VM (build 24.95-b91，mixed 
2. 已 安装 Java 版 本 


hduser@hadoop:~$ [| 


图 4-6 查询 Java 版 本 
人 ER6 查询 Java 安装 的 位 置 
想 知 道 Java 安装 在 哪里 时 ， 可 以 使 用 下 列 命令 : 
> ”查询 Java 安装 路 径 


update-alternatives --display Java 


系统 会 响应 安装 的 路 径 ， 如 图 4-7 所 示 。 


1. 查看 Java 已 安装 的 软件 包 


hduser@hadoop: ~ 
hduser@hadoop:~$| update-alternatives --display java 
自动 模式 


usr/lib/jvm/java-7-openijdk-amd64/jre/bin/java 
-amd64/jre/bin/java - 优先 级 
slave java.1.gz : /usr/Lib/jvm/java-7-openjdk-amd64/jre/man/manl/java.1.9z 
目前 “最 佳 "的 版 本 为 /usr/lib/jvm/java-7-openjdk-amd64/jre/bin/java。 
lhduser@hadoop:~$ 


2. 显示 安装 的 路 径 


图 4-7 查询 Java 安装 路 径 


从 图 4-7 可 以 得 知 ，Java 安装 在 /usr/lib/jvm/java-7-openjdk-amd64 文件 夹 中 ， 稍 后 我 们 会 
在 ~/.bashrc 文件 中 设置 此 路 径 。 


设置 SSH 无 密码 登录 


Hadoop 是 由 很 多 台 服 务 器 所 组 成 的 ， 当 我 们 启动 Hadoop 系统 时 ，NameNode 必须 与 
DataNode 连接 并 管理 这 些 节 点 (DataNode)。 此 时 系统 会 要 求 用 户 输入 密码 。 为 了 让 系统 顺利 
运行 而 不 手动 输入 密码 ,需要 将 SSH 设置 成 无 密码 登录 。 注意 ,无 密码 登录 并 非 不 需要 密码 ， 
而 是 以 事先 交换 的 SSH Key 〈 密 钥 ) 来 进行 身份 验证 。 

如 图 4-8 所 示 ，Hadoop 使 用 SSH (Secure Shell) 连接 ， 这 是 目前 较 可 靠 、 专 为 远程 登录 
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其 他 服务 器 提供 的 安全 性 协议 。 通过 SSH 会 对 所 有 传输 的 数据 进行 加 密 ， 利 用 SSH 协议 可 以 
防止 远程 管理 系统 时 信息 外 泄 的 问题 。 


[| 


防止 监听 Sniffer Es 


图 4-8 Hadoop 使 用 SSH 连接 


To1 安装 SSH 
在 “终端 ”程序 提示 符 下 输入 以 下 命令 : 
> 安装 SSH 


sudo apt-get install ssh 


运行 后 显示 如 图 4-9 所 示 的 界面 , 系统 会 询问 是 否 要 继续 , 若 继 续 , 请 输入 “Y” 再 按 Enter 键 。 


hduser@hadoop: ~ 


hduser@hadoop:~$| sudo apt-get install ssh 1. 输入 sudo apt-get install ssh 


[sudo] password for 


读 取 状 
振安 到 下 人 信 外 的 座 答 如 ， 
libck-connector® ncurses-term openssh-client openssh-server 
openssh-sftp-server ssh-import-id 
建议 安装 的 软件 包 : 
libpam-ssh keychain ysphere rssh molly-guard 
下 列 【新 】 软 件 包 将 被 安装 
Libck-connector6 ncurses-term openssh-server openssh-sftp-server ssh 
ssh-import-id 
下 列 软件 包 将 被 升级 : 
openssh-client 


Re 1 个 软件 包 ,新 安装 了 6 个 软件 包 ， 要 卸载 9 个 软件 包 ， 有 166 个 软件 包 未 被 升 
党 名 下 载 626 kB/1, 1 2. 输入 Y 再 按 Enter 键 


解压 缩 后 会 消耗 空间 。 
您 希望 继续 执行 吗 
图 49 安装 SSH 
人 ED2 安装 rsync 


在 “终端 ”程序 提示 符 下 输入 以 下 命令 : 


> 安装 rsync 
sudo apt-get install rsync 
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运行 后 界面 如 图 4-10 所 示 。 


hduser@hadoop: ~ 


Da er ee HE 


1. 使 用 apt-get 安装 rsync 


rsync 下 全 重新 的 乒 玉 于 
升级 了 0 个 软件 包 , 新 安装 了 9 个 软件 包 ， 要 季 载 。 个 软件 包 ， 有 252 个 软件 包 未 被 升级 。 
hduser@hadoop:~$ 


升级 了 0 个 软件 包 ， tp 9 个 软件 包 ， 要 站 载 9 个 软件 包 ， 有 157 个 软件 包 未 被 升级 。 


此 虹 作 二 成 > 后， 会 多 占用 3,450 KI 
Do you want to continue? ee 一 [2 XY | 


图 4-10 安装 rsync 


D03 产生 SSH Key ( 密 钥 ) 
在 “终端 ”程序 提示 符 下 输入 以 下 命令 : 
> 产生 SSH Key ( 密 钥 ) 进行 后 续 身份 验证 


ssh-keygen -t dsa -P '' -f ~/.ssh/id dsa 


运行 后 界面 如 图 4-11 所 示 。 


mer rae 1. 使 用 ssh-keygen 产生 密 钥 
hduser@hadoop:~$|ssh-keygen -t dsa -P '' -f ~/.ssh/tid-o55 
re 


p y 
Created directory '/home/hduser/. 
Your identification has been save 


c:1f:05 hduser@hadoop 


2. 产生 的 密 钥 文 件 


lc1:e3:7a:e0:17:5a:73: 89: 63:02:fe:fc:b: 
The key's randomart image is: 

+--[ DSA 1924]----+ 

| | 


| 
| 
| 
| 
二 : 渴 生 | 
| 
| 
| 


411 产生 SSH Key 
人 4 查看 产生 的 SSH Key ( 密 钥 ) 
SSH Key〈 密 钥 ) 会 产生 在 用 户 的 根 目 录 下 ， 也 就 是 /home/hduser。 
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> 查看 产生 的 SSH Key ( 密 钥 ) 
11 </ .ssh 


运行 后 界面 如 图 4-12 所 示 。 


hduser@hadoop: ~ 


hauserehadoop:-sltL /ssh 
总 用 量 16 


drwx------ 2 hduser hduser 4696 5 月 13 13:67 ./ 
drwxr-xr-x 18 hduser hduser 4696 5 月 13 13:67 .. 
-rw------- 1 hduser hduser 664 5 月 13 13:0 
-rw-r--r-- hduser 599 5 月 13 13:67 id dsa.pub 


hduser@hadoop:~$ 


1. 查看 产生 的 密 钥 文 件 


2. 产生 的 文件 


有 


上 


图 4-12 查看 产生 的 SSH Key 
人 05 将 产生 的 Key 放置 到 许可 证 文件 中 


为 了 能 够 无 密码 登录 本 机 ， 我 们 必须 将 产生 的 公 钥 加 入 许可 证 文件 中 。 
在 终端 程序 提示 符 下 输入 以 下 命令 : 


> 将 产生 的 Key 放置 到 许可 证 文件 中 
cat ~/.ssh/id dsa.pub >> ~/.ssh/authorized keys 


命令 运行 后 ， 会 将 ~/.ssh/id_dsa.pub 附加 到 ~/.ssh/authorized_keys 许可 证 文件 之 后 。 


Linux 的 输出 重 定向 附加 功能 命令 的 格式 如 下 : 
命令 >> 文件 

这 个 重 定向 符号 “>>” 会 将 命令 运行 后 产生 的 标准 输出 (stdout) 重 定向 附加 在 该 文件 之 后 。 

(1) 如 果 文 件 不 存在 ， 就 会 先 创建 一 个 新 文件 ， 然 后 把 标准 输出 stdout) 的 内 容 存储 在 


这 个 文件 中 。 
(2) 如 果 文 件 已 经 存在 ， 就 会 将 标准 输出 (stdout) 的 数据 附加 至 文件 内 容 的 后 面 ， 而 不 
会 覆盖 原来 文件 的 内 容 。 

运行 后 显示 界面 如 图 4-13 所 示 。 将 公 钥 放置 到 许可 证 文件 中 


hduser@hadoop: ~ 


hduser@hadoop:~$ [cat ~/.ssh/id dsa.pub >> ~/.ssh/authorized Keys] 


图 4-13 将 产生 的 key 放置 到 许可 证 文件 中 


3 下 载 安装 Hadoop | 


接 下 来 到 Hadoop 官网 下 载 Hadoop 2.6.4 版 本 ， 并 且 安 装 到 Ubuntu 中 。 请 注意 ， 在 这 里 
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一 定 要 下 载 Hadoop 2.6.4， 因 为 后 续 我 们 要 
版 本 我 们 选择 2.6.4。 


人 301 连接 至 Hadoop 下 载 页 面 ( 见 图 4-14) 


装 Spark 2.0 版 ， 与 Spark 2.0 配合 的 Hadoop 


在 浏览 器 输入 下 列 网 址 : 


> 连接 至 Hadoop 官网 下 载 页 面 
https://archive.apache.org/dist/hadoop/common/ 


Apache Hadoop Releases - Mozilla Firefox 


单 击 此 链接 来 下 载 
hadoop-2.6.4 版 本 


\ Apache Hadoop Rel... x 


> joop.apache.org, 


lssue Tracking 

Who We Are? 

Who Uses Hadoop? 
Buy Stuff 
Sponsorship .6. 11 February, 2016 Source signature F755D961 18316335. 
Thanks signature C58F08D2 E0B13035.. 
Privacy Policy .7. 25 January, 2016 Source signature 7D48E61B 5464A765.. 
Bylaws binary signature 49AD740F 85D27FA3. 
License .6. 17 Dec, 2015 Source Signature FA0C71B5 CB33A7FD.. 


esponding binary tarballs for convenien 
be checked for tampering using GPG d 


图 4-14 连接 至 Hadoop 下 载 页 面 
D02 复制 链接 ( 见 图 4-15) 


NN Apache Downloa' 


(€)@® | www.apache.org/dyn/closer.cgi/hadoop/comr 四 | © |[Q search 站 自已 会 四 


会 Home ,Dyn 


About ”Projects ”People "Get mvolved ”Download SupportApache ~ 


APACHE: 


SOFTWARE FOUNDATION 


‘We suggest the following mirror site for your download: 


Open Link inNew Tab 
OpenLink inNew Window 
OpenLink in New Private Windo' 


other mirror sites are suggested below Please use the backup mirrors only to dowr 
signatures to verify your downloads or if no other mirrors are working. 


HTTP 


http:/apache.stu.edu.tw/hadoop/common/hadoop-2.6.4/hadoop-2.6.4.tar.gz 
Search Gooe For "http://ftp. 
图 4-15 复制 链接 


C03 执行 下 载 命令 


在 “终端 ”程序 提示 符 下 输入 wget 及 空格 键 ， 然 后 按 Ctrl + Shift + V 组 合 键 粘贴 之 前 复 
制 的 链接 ， 如 下 列 命 令 : 
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> 下 载 Hadoop-2.6.4.tar.gz 
Wget https://archive.apache.org/dist/hadoop/common/hadoop-2.6.4/hadoop-2.6.4.tar.gz 


执行 结果 如 图 4-16 所 示 。 


hduser@hadoop: ~ 


hduser@hadoop:~$ wget http://apache.stu.edu.tw/hadoop/common/hadoop-2.6.4/hadoop| 
-2.6.4.tar .gz 

--2616-68-22 11:35:61-- http://apache.stu.edu.tw/hadoop/common/hadoop-2.6.4/had 
oop-2.6.4.tar.9z 

正在 解析 主机 apache.stu.edu.tw (apache.stu.edu.tw)... 126.119.118.1，2661:e196:c4| 
1:eeee::1 

正在 连接 apache. stu.edu.tw (apache.stu.edu.tw)1126.119.118.11:86... 已 连接 。 

已 发 出 HTTP 请 求 ， 正 在 等 待 回应 .. .266 OK 

长 度 : 196815975 (187M) [application/x-gzip] 

Saving to: “hadoop-2.6.4.tar.gz” 


166%[=== ====>] 196,615,975 2.18MB/s in 97s 


2616-68-22 11:36:39 (1.92 MB/s) - “hadoop-2.6.4.tar.gz’ saved [196015975/1960159 
75] 


图 4-16 执行 下 载 命令 
人 4 解压 缩 hadoop 2.6.4 
在 “终端 ”程序 提示 符 下 输入 以 下 命令 : 


> 解压 hadoop-2.6.4.tar.gz 至 hadoop-2.6.4 目录 


sudo tar -zxvf Hadoop-2.6.4.tar.gz 


执行 结果 如 图 4-17 所 示 。 


hduser@hadoop: ~ 


hduser@hadoop:~$ sudo tar -zxvf hadoop-2.6.4.tar.gz 


图 4-17 解压 缩 hadoop 2.6.4 


FT05 将 Hadoop 移动 到 /usrlocal 
软件 默认 的 安装 路 径 是 /usr/local， 可 在 “终端 ”程序 提示 符 下 输入 以 下 命令 : 


> 移动 hadoop-2.6.4 目录 到 /usr/local/hadoop 
sudo mv hadoop-2.6.4 /usr/local/hadoop 


运行 后 界面 如 图 4-18 所 示 。 


x hduser@hadoop: ~ 
hduser@hadoop:~$ sudo mv hadoop-2.6.4 /usr/local/hadoop 


图 4-18 将 Hadoop 移动 到 /usrlocal 
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本 06 查看 Hadoop 安装 目录 /usr/local/hadoop 
在 “终端 ”程序 中 输入 下 列 命令 : 


> 查看 Hadoop 安装 目录 /usrlocalhadoop 
11 /usr/local/hadoop 


运行 后 界面 如 图 4-19 所 示 。 
© hduser@hadoop:~ 


hduser@hadoop:~$ LL /usr/local/hadoop 
总 用 量 66 


drwxr-xr-x 9 16611 16611 4696 1 月 26 2616 ./ 
drwxr-xr-x 11 root root 4696 8 月 2 12:52 ../ 
drwxr-xr-x 2 16611 16611 4696 1 月 26 2616 bin/ 
drwxr-xr-x 3 16611 16611 4696 1 月 26 2616 etc/ 
drwxr-xr-x 2 16611 166911 4696 1 月 26 2616 incLude/ 
drwxr-xr-x 3 16611 166911 4696 1 月 26 2616 Lib/ 
drwxr-xr-x 2 16611 16611 4696 1 月 26 2616 libexec/ 
rw-r--r-- 1 16611 16611 15429 1 月 26 ”2616 LICENSE.txt 
rw-r--r 1 16911 16611 161 1 月 26 2616 NOTICE.txt 
Tw-r--r 1 16611 16611 1366 1 月 26 ”2616 README.txt 
drwxr-xr-x 2 16611 16911 4696 1 月 26 2616 sbin/ 
drwxr-xr-x 4 16611 166911 4696 1 月 26 2616 share/ 


hduser@hadoop:~$ 

4-19 查看 Hadoop 安装 目录 /usr/local/hadoop 
常用 的 目录 说 明 如 表 4-2 所 示 。 
表 4-2 常用 的 目录 说 阴 


目录 。 说 明 
各 项 运行 文件 ， 包 括 Hadoop、HDFS、YARN 等 
各 项 shell 运行 文件 ， 包 括 start-all.sh、stop-all.sh 


etc/hadoop 子 目 录 包 含 Hadoop 配置 文件 ， 例 如 hadoop-env.sh、core-site.xml、YARN-site.xml、 
mapred-site.xml 、hdfs-site.xml 


四 Hadoop 函数 库 


系统 日 志 ， 可 以 查看 系统 运行 状况 ， 运 行 有 问题 时 可 从 日 志 找 出 错误 原因 


二 
设置 Hadoop 环境 变量 
运行 Hadoop 必须 设置 很 多 环境 变量 ， 可 是 如 果 每 次 登录 时 都 必须 重新 设置 就 会 很 麻烦 ， 
因此 我 们 可 以 在 ~/.bashre 文件 中 设置 每 次 登录 时 都 会 自动 运行 一 次 环境 变量 设置 。 
编辑 ~/.bashrc 
在 “终端 ”程序 中 输入 下 列 命令 : 
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> 编辑 ~/.bashrc 


sudo gedit ~/.bashrc 


输入 后 按 Enter 键 就 会 打开 ~/.bashre， 如 图 4-20 所 示 。 


.bashrc (~) - gedit 


| .bashrc x 
elif | -f /etc/bash_completion J]; then 
». /etc/bash_completion 


fi 1. 输入 下 列 内 容 


JAVA_HOME=/usr /Lib/jvm/java-7-openjdk-amd64 
HADOOP_HOME=/usr /local/hadoop 

PA PATH: SHADOOP_HOME /bin 
PATH=$PATH: SHADOOP_HOME/ sbinl 
export HADOOP_MAPRED_HOME=$HADOOP_HOME 

export HADOOP_COMMON_HOME=S$HADOOP_HOME 

export HADOOP_HDFS_HOME=$HADOOP_HOME 

export YARN_HOME=$HADOOP_HOME 

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native 
HADOOP_OPTS=" -Djava. library.path=$HADOOP_HOME/Lib" 
JAVA_LIBRARY_PATH=$HADOOP_HOME/Lib/native:$JAVA_LIBRARY_PATH 


图 4-20 编辑 ~/.bashre 


编辑 完成 后 ， 先 保存 ， 再 关闭 gedit。 

上 述 设置 说 明 如 下 : 

> 设置 JDK 安装 路 径 (参考 第 4.2 节 ) 
export JAVA HOME=/usr/1ib/jvm/Java-7-openjdk-amd64 

> 设置 HADOOP_HOME 为 Hadoop 的 安装 路 径 /usr/local/hadoop 
export HADOOP HOME=/usr/local/hadoop 

> 设置 PATH 


export PATH=$PATH:$HADOOP HOME/bin 
export PATH=$PATH:$HADOOP HOME/sbin 


Hadoop 运行 文件 目录 是 /bin 与 sbin。 设 置 PATH 可 以 让 你 在 其 他 目录 时 仍然 能 够 运行 
Hadoop 命令 。 

> 设置 HADOOP 其 他 环境 变量 

设置 这 些 环境 变量 为 SHADOOP_HOME， 也 就 是 Hadoop 的 安装 路 径 /usr/local/hadoop。 


export HADOOP MAPRED HOME=$HADOOP HOME 
export HADOOP COMMON HOME=$HADOOP HOME 
export HADOOP HDFS HOME=$HADOOP HOME 
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export YARN HOME=$HADOOP HOME 


> ”链接 库 的 相关 设置 


export HADOOP COMMON LIB NATIVE DIR=$HADOOP HOME/lib/native 
export HADOOP OPTS="-DJava.library.path=$HADOOP HOME/1ib" 
export JAVA LIBRARY PATH=$HADOOP HOME/lib/native:$JAVA LIBRARY PATH 


人 2 让 ~/.bashrc 修改 的 设置 生效 


当 我 们 修改 ~/.bashrc 之 后 , 先 从 系统 注销 再 登录 系统 , 这 样 设置 就 会 生效 ,或 者 使 用 source 
命令 让 ~/.bashrc 设置 生效 。 请 在 “终端 ”程序 中 输入 下 列 命 令 : 
> 让 ~/.bashrc 设置 生效 
source ~/.bashrc 
运行 结果 如 图 4-21 所 示 。 


hduser@hadoop: ~ 
hduser@hadoop:~$ source ~/.bashrc 
4-21 让 ~/.bashrc 修改 的 设置 生效 


修改 Hadoop 配置 设置 文件 


接 下 来 要 进行 Hadoop 配置 设置 ,包括 Hadoop-env.sh、core-site.xml、YARN-site.xml、 
mapred-site.xml、hdfs-site.xml。 


人 J01 设置 hadoop-env.sh 配置 文件 


hadoop-env.sh 是 Hadoop 的 配置 文件 ， 在 这 里 必须 设置 Java 的 安装 路 径 ， 在 “终端 ” 程 
序 中 输入 下 列 命令 : 


> ”编辑 Hadoop-env.sh 
sudo gedit /usr/local/hadoop/etc/hadoop/hadoop-env.sh 


输入 后 按 Enter 键 就 会 打开 hadoop-envsh， 屏 幕 显示 界面 如 图 4-22 所 示 。 
原本 文件 中 JAVA_HOME 的 设置 是 : 


export JAVA HOME=${JAVA HOME} 


修改 为 : 


export JAVA HOME=/usr/1ib/jvm/java-7-openjdk-amd64 


编辑 完成 后 ， 先 保存 ， 再 关闭 gedit。 
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*hadoop-envsh Uusrylocal/hadoop/etc/hadoop) - gedit 


*hadoop-envsh x 


# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. 
# See the License for the specific Language governing permissions and 
# Limitations under the License. 


Set Hadoop-specific environment variables here 


# The only required environment variable is JAVA HOME. ALL others are 
# optional. When running a distributed configuration it is best to 
# Set JAVA_HOME in this file, so that it is correctly defined on 
# remote nodes. 


修改 JAVA_HOME 设置 


# The java implementation to use. 


xport JAVA_HOME=/usr/Lib/jvm/java-7-openjdk-amd64 
图 4-22 设置 hadoop-env.sh 配置 文件 


02 设置 core-site.xml 
在 “终端 ”程序 输入 下 列 命 令 : 


> ”修改 core-site.xml 
sudo gedit /usr/local/hadoop/etc/hadoop/core-site.xml 


输入 后 按 Enter 键 就 会 打开 core-site.xml， 屏 幕 显示 界面 如 图 4-23 所 示 。 


core-site.xml (/usr/local/hadoop/etc/hadoop) - gedit 


core-site.xml x 
http://www. apache. org/licenses/LICENSE-2.0 


Unless required by applicable law or agreed to in writing, software 

distributed under the License is distributed on an "AS IS" BASIS, 

WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or 
implied. 

See the License for the specific language governing permissions and 

limitations under the License. See accompanying LICENSE file. 


上 
<!-- Put site-specific property overrides in this file. --> 


<configuration> 
<property> 


设置 HDFS 的 默认 名 称 


<name>fs.default.name</name> 
<value>hdfs://localhost:9000</value> 


<]Pproperty> 
</configuration> 


图 4-23 设置 core-site.xml 


在 core-site.xml 中 ,我 们 必须 设置 HDFS 的 默认 名 称 , 当 我 们 使 用 命令 或 程序 要 存 取 HDFS 
时 ， 可 使 用 此 名 称 。 编 辑 完成 后 ， 先 保存 ， 再 关闭 gedit。 


人 3 设置 YARN-site xml 


YARN-site.xml 文件 中 含有 MapReduce2 (YARN ) 相关 的 配置 设置 ， 可 在 “终端 ”程序 输 
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> 编辑 YARN-site.xml 
sudo gedit /usr/local/hadoop/etc/hadoop/yarn-site.xml 


输入 后 按 Enter 键 就 会 打开 YARN-site.xml， 请 在 <configuration></configuration> 之 间 输 
入 图 4-24 中 显示 的 内 容 。 


*yarn-site.xml (/usr/local/hadoop/etc/hadoop) - gedit 


六 加 (E) 下 看 (T) 文档 (D) 


yarnsitexml x 
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or tmptted. 
See the License for the specific language governing permissions and 
limitations under the License. See accompanying LICENSE file. 


<configuration> 


<!- -Site specific YARN configuration properties --> 
<property> 

<nane>yarn.nodenanager .aux-services</name> 
<value>mapreduce_shuffle</value> 
</property> 

<property> 

<nane>yarn.nodemanager .aux-services.mapreduce. shuffle.class</name> 
<value>org.apache.hadoop.napred. ShuffleHandler</value> 
</property> 


图 4-24 输入 新 内 容 


编辑 完成 后 ， 先 保存 ， 再 关闭 gedit。 
人 4 设置 mapred-site.xml 


mapred-site.xml 用 于 设置 监控 Map 与 Reduce 程序 的 JobTracker 任务 分 配 情况 以 及 
TaskTracker 任务 运行 情况 。Hadoop 提供 了 设置 的 模板 文件 ， 可 以 自行 复制 修改 。 在 “终端 ” 
程序 中 输入 下 列 命令 : 

> ”复制 模板 文件 : 由 mapred-site.xml.template 至 mapred-site.xml 
sudo cp /usr/local/hadoop/etc/hadoop/mapred-site.xml .template /usr/local/hadoop/ 
etc/hadoop/mapred-site.xml 


执行 过 程 如 图 4-25 所 示 。 


hduser@hadoop: ~ 


hduser@hadoop:~$ sudo cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template / 
usr/local/hadoop/etc/hadoop/mapred-site.xml 
hduser@hadoop:~$ 


图 4-25 设置 mapred-site.xml 


> 编辑 mapred-site.xml 
sudo gedit /usr/local/hadoop/etc/hadoop/mapred-site.xml 


输入 后 按 Enter 键 就 会 打开 mapred-site.xml， 输 入 图 4-26 所 示 的 内 容 。 
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*mapred-site.xml (usr/local/hadoop/etc/hadoop) - gedit 


查 5s) 工具 (T) 文 帮助 (H 


*mapred-site.xml x 
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. 
See the License for the specific language governing permissions and 


limitations under the License. See accompanying LICENSE file. 
--> 


<!-- Put site-specific property overrides in this file. --> 


<configuration> 

roperty> 
<name>mapreduce,. framework.name</name> 
<value>yarn</value> 


设置 mapreduce 框架 为 yam 


</configuration> 


图 4-26 设置 mapred-site.xml 
编辑 完成 后 ， 先 保存 ， 再 关闭 gedit。 
人 5 设置 hdfs-sitexml 
hdfs-site.xml 用 于 设置 HDFS 分 布 式 文件 系统 ， 在 “终端 ”程序 中 输入 下 列 命令 : 


> 编辑 hdfs-site.xml 
sudo gedit /usr/local/hadoop/etc/hadoop/hdfs-site.xml 


输入 后 按 Enter 键 就 会 打开 hdfs-site.xml， 请 在 <configuration> </configuration> 标签 之 间 
输入 如 图 4-27 所 示 的 内 容 。 


“hdfs-site.xml (Jusr/local/hadoop/etc/hadoop) - gedit 


编辑 (E) 查看 (V 
*hdfs-site.xml x 


§ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. 
See the License for the specific language governing permissions and 
limitations under the License. See accompanying LICENSE file. 

--> 
| 


<!-- Put site-specific property overrides in this file. --> 


副本 备份 数 


<name>dfs.replication</name> 
<value>3</value> 


2. 设置 NameNode 
<name>dfs.namenode .name.dir</name> 数据 存储 目录 


<value> file:/usr/local/hadoop/hadoop_data/hdfs/namenode</value> 


<name>dfs.datanode.data.dir</nane> 3. 设置 DataNode 
<value> file:/usr/local/hadoop/hadoop_data/hdfs/datanode</value> 


</property> 数据 存储 目录 


XML ，” 制 表 符 宽度 : 8 * 行 32 


图 4-27 设置 hdfs-site.xml 
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默认 的 blocks 副本 备份 数量 是 每 一 个 文件 在 其 他 node 的 备份 数量 ， 默 认 值 为 3 可 参考 
第 1.3 节 的 说 明 ) 。 编 辑 完成 后 ， 先 保存 ， 再 关闭 gedit。 


创建 并 格式 化 HDFS 目录 


人 1) 创建 namenode、datanode 数据 存储 目录 


在 “终端 ”程序 中 输入 下 列 命令 ， 创 建 namenode、datanode 数据 存储 目录 : 
> 创建 namenode 数据 存储 目录 


sudo mkdir -p /usr/local/hadoop/hadoop data/hdfs/namenode 


> 创建 datanode 数据 存储 目录 
sudo mkdir -p /usr/local/hadoop/hadoop data/hdfs/datanode 


> 将 Hadoop 目录 的 所 有 者 更 改 为 hduser 


sudo chown hduser:hduser -R /usr/local/hadoop 


Linux 是 多 人 多 任务 的 操作 系统 ， 所 有 的 目录 或 文件 都 具有 所 有 者 ,使 用 chown 可 以 将 目 
录 或 文件 的 所 有 者 更 改 为 hduser。 
执行 结果 界面 如 图 4-28 所 示 。 


hduser@hadoop: ~ 


hduser@hadoo sudo mkdir -p /usr/local/hadoop/hadoop_data/hdfs/namenode 
hduser@hadoo sudo mkdir -p /usr/local/hadoop/hadoop_data/hdfs/datanode 
hduser@hadoop:~S$|sudo chown hduser:hduser -R /usr/local/hadoop 


hduser@hadoo 


图 4-28 ”创建 namenode、datanode 数据 存储 目录 
D02 格式 化 namenode 
在 “终端 ”程序 中 输入 下 列 命令 : 
> ”将 HDFS 进行 格式 化 


hadoop namenode -format 


执行 结果 界面 如 图 4-29 所 示 。 


坊 如 果 HDFS 已 经 有 数据 ， 可 以 执行 HDFS 格式 化 命令 : 
| hadoop namenode -format 


这 个 操作 会 删除 所 有 的 数据 。 


73 


寿 ;， Python+Spark 2.0+Hadoop 机 器 学 习 与 大 数据 实战 


hduser@hadoop: ~ 


hduser@hadoop:~s| hadoop namenode -format 


DEPRECATED: Use ©b Fo ore hdfs command ts deprecated. 
Instead use the hdfs command for it. 


15/04/28 20:58:22 INFO namenode.NameNode: STARTUP_MSG: 
证 让 本 和 让 二 太古 册 二 让 直 二 帮主 让 丰 二 让 本 祥和 本 
: Starting NameNode 
hadoop/127.9.1.1 
[-format] 


Ey classpath = /usr/local/hadoop/etc/hadoop: /usr/local/hadoop/share/| 
hadoop/common/Lib/log4j-1.2.17.jar:/usr/local/hadoop/share/hadoop/common/Lib/jac| 
kson-xc-1.9.13.jar:/usr/local/hadoop/share/hadoop/conmon/Lib/paranamer -2.3.jar:/ 
usr/local/hadoop/share/hadoop/comnon/Lib/zookeeper -3.4.6.jar:/usr/local/hadoop/s| 
hare/hadoop/common/Llib/jackson-core-asl-1.9.13.jar:/usr/local/hadoop/share/hadoo| 
|pycommon/VLtb/jetrttson-1.1.jar:/usr/LocaL/hadoop/share/hadoop/conmon/Ltb/httpcore| 
-4.2.5.jar:/usr/LocaL/hadoop/share/hadoop/common/Lib/jasper-comptter-5.5.23.jar: 
/usr/tLocat/hadoop/share/hadoop/common/Lib/protobuf-java-2.5.6.jar:/usr/LocaL/had 
loop/ share/hadoop/conmon/1ib/jasper-runtime-5.5.23.1ar:/usr/Local/hadoop/share/hal 
doop/comnmon/lib/curator -franework-2.6.0.jar:/usr/local/hadoop/share/hadoop/commo| 
n/Lib/xz-1.8.jar:/usr/local/hadoop/share/hadoop/common/lib/java-xmlbuilder-e.4.j| 
ar: yusr/tocat/hadoop/share/hadoop/common/Ltb/jersey-server-1.9.jar:/usr/Locat/hal 
doop/share/hadoop/common/lib/apacheds-ii8n-2.0.9-M15.jar:/usr/local/hadoop/share| 
/hadoop/common/ lib/commons-el-1.60.jar:/usr/local/hadoop/share/hadoop/common/ Lib)/| 


图 4-29 格式 化 namenode 


启动 Hadoop 


在 之 前 的 步骤 中 已 经 完成 了 Hadoop Single Node Cluster 的 安装 ， 现 在 开始 启动 Hadoop。 
可 以 使 用 以 下 两 种 方式 : 


@ 分别 启动 HDFS、YARN, 使 用 start-dfs.sh( 启动 HDFS )、start-YARN.sh( 启动 YARN )。 
@ 同时 启动 HDFS、YARN， 使 用 start-all.sh。 


Jo1 启动 HDFS 
在 “终端 ”程序 中 输入 下 列 命令 : 


> 启动 HDFS 
start-dfs.sh 


执行 结果 的 屏幕 显示 界面 如 图 4-30 所 示 ， 第 1 次 执行 会 询问 是 否 继 


hduser@hadoop: ~ 
hduser@hadoop:~$ start-dfs.sh 

Starting namenodes on [Locathost] 

he authenttctty of host ‘localhost (127.0.0.1), can't be established. 归 动 namenode 
ECDSA key fingerprint is di:ae:5f:58:8f:26 :S51:ec:05:61:b 启动 

Are you sure you want to continue connecting (yes/no 


卖 联机 ， 请 按 下 yes。 


启动 datanode 
starting secondary namenodes [6.6.6.6] 

The authenticity of host '6.6.6.6 (6.8.6.6)，can't be established. 

IECDSA key fingerprint is di:ae: :8f:26:34:7d:51:ec:65:61:b3:6b:42:22. 

Jare you sure you want to continue connecting (yes/no)? yes 

Il6.0.0.0: Warning: Permanently added '6.6.6.6' (ECDSA) to the list of known hosts| 


6.0.0.0: starting secondarynamenode, Logging to /usr/local/hadoop/Logs/hadoop-hd| 
user -secondarynamenode-hadoop. out 
hduser@hadoop:-$ 目 


图 4-30 启动 HDFS 
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E302 启动 Yam 
在 “终端 ”程序 中 输入 下 列 命令 : 


> ”启动 Hadoop MapReduce 框架 Yarn 


start-yarn.sh 


执行 结果 界面 如 图 4-31 所 示 : 第 1 次 执行 会 询问 是 否 继续 连接 ， 请 按 下 yes。 


starting yarn daemons 

Etarting resourcemanager, logging to /usr/local/hadoop/logs/yarn-hduser-resource| 
manager -hadoop.ou 
The authenticity of host 'LocaLhost (127.0.0.1)' can't be established. 
ECDSA key fingerprint is 38:067:83:ba:2b:b7:64:9e:ba:4 Fba:d7:22:68:5 8 
Are you sure you want to continue connecting (yes/no)? yes 


启动 NodeManager 


ocalhost: starting nodemanager, logging to /usr/LocaL/hadoop/Logs/yarn-hduser-n| 


图 4-31 启动 Yarn 
人 3 同时 启动 HDFS 和 Yarn: start-all.sh 


另外 ， 还 可 以 使 用 start-all.sh。 


> 同时 启动 HDFS、Yarn 
start-all.sh 


执行 结果 的 屏幕 显示 界面 如 图 4-32 所 示 。 


hduser@hadoop: ~ 
hduser@hadoop:~$ start-all.sh 
This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh 
Starting namenodes on [Locathost] 
: starting namenode, logging to /usr/local/hadoop/logs/hadoop-hduser-namenode-hadoop.out 
: starting datanode, logging to /usr/local/hadoop/logs/hadoop-hduser-datanode-hadoop.out 
starting secondary namenodes [6.6.6.6] 
8.6.6.6: starting secondarynamenode, logging to /usr/local/hadoop/logs/hadoop-hduser-secondarynamenode 
hadoop out 
starting yarn daemons 
starting resourcemanager, Logging to /usr/local/hadoop/logs/yarn-hduser-resourcemanager -hadoop.out 
ocalhost: starting nodemanager, logging to /usr/local/hadoop/logs/yarn-hduser-nodemanager -hadoop.out 


图 4-32 同时 启动 HDFS 和 Yam 
F304 使 用 jps 查看 已 经 启动 的 进程 


jps 《Java Virtual Machine Process Status Too1)， 可 以 查看 当前 所 运行 的 进程 (process)， 在 
“终端 ”程序 中 输入 下 列 命令 : 


> 查看 NameNode、DataNode 进程 是 否 启动 


jps 
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运行 后 屏幕 显示 界面 如 图 4-33 所 示 。 


hduser@hadoop: ~ 


hduser@hadoop:~$ jps 

11897 ResourceManager 

11761 SecondaryNameNode 
11447 NameNode HDFS 相关 进程 


11589 DataNode 


图 4-33 查看 已 经 启动 的 进程 


以 上 启动 进程 的 说 明 如 下 : 因为 只 有 一 台 服 务 器 ， 所 以 所 有 功能 都 集中 在 这 台 服 务 器 中 ， 
我 们 可 以 看 到 以 下 内 容 。 

@ HDFS 功能 : NameNode、SecondaryNameNode、DataNode 已 经 启动 。 

@ MapReduce2 (YARN ) : ResourceManager、NodeManager 已 经 启动 。 


打开 Hadoop Resource-Manager 


Web 界面 


Hadoop ResourceManager Web 界面 可 用 于 查看 当前 Hadoop 的 状态 : Node 节点 、 应 用 程 
序 、 进 程 运行 状态 。 


人 OO) 打开 Hadoop ResourceManager Web 界面 


打开 浏览 器 Firefox， 在 网 址 栏 输入 : 


> Hadoop ResourceManager Web 界面 网 址 
http://localhost:8088/ 


参照 下 列 步骤 〈 见 图 4-34)， 就 可 以 看 到 屏幕 显示 界面 。 
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鲜 hadoop [二 行 中 ]- OradeVM VirtualBox lis) 


和 酷 中 16:42 疫 


QQ 位 自 咏 俞 


All Applications 


ory Memory Memory VCores VCore 


Submitted -Pending| 1. 单 击 Firefox 图 标 Ed Total Reserved Used Totall 
T 


, 2 7 0E 86B 0B 0 8 
NEW_SAVING 
SUBMITTED Show 20 -jentles 


ACCEPTED 和 7” 人 
RUNNING ID™ User$ Name $ ApplicationType ? Queue $ startrme $ Finshnime 


No data avallable In table 


KILLED Showing0 to 0 of 0 entrles 
Scheduler 


» Tools 


FFE ET le 


4-34 打开 Hadoop ResourceManager Web 界面 
02 查看 已 经 运行 的 节点 Nodes 


单 击 Nodes 时 ， 会 显示 当前 的 节点 。 不 过 ， 因 为 我 们 安装 的 是 Single Node Cluster， 所 以 
当前 只 有 一 个 节点 ， 如 图 4-35 所 示 。 


Nodes of the cluster 
所 @localhost vc 图 QQ 人 六 自 咏 会 三 
Nodes of the clus; 
2 当前 节点 
> Cluster Cluster Metrics 
About Apps Apps Apps Apps ‘ontainers Memory Memory Memory VCores VCore 
rr ~ Submltted Pending Running Completed/ Running Used Total Reserved Used Total 
NEW 0 0 0 0 0 0B 8GB 0B 0 8 
NEW_SAVING 
SUBRNITED Show 20 -jentries 
ACCEPTED 
RUNNING Node i | 
EINISHED els ~ -2 S > 
RED hadoop:52807 hadoop:8042 
Scheduler 
Showing 1 to 1 of 1 entries 
» Tools 


图 4-35 查看 已 经 运行 的 节点 
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149 NameNode HDFS Web 界面 


HDFS Web 界面 可 以 检查 当前 HDFS 与 DataNode 的 运行 情况 。 
D01 打开 NameNode HDFS Web 界面 
打开 浏览 器 Firefox， 在 网 址 栏 输 入 : 


> HDFS Web UI 网 址 
http://localhost:50070/ 


可 以 看 到 屏幕 显示 界面 ， 如 图 4-36 所 示 。 


formation - Mozilla Firefox 


Namenodeinformation 


- 2. 在 网 址 栏 中 输入 http://localhost:50070/ 


Hadoop Oveview Datanodes Snapshot StartupProgress Utililes 
1. 单 击 Firefox 图 标 


Wed Jun 24 15:20:46 CST 2015 


Overview \ocalhost:9000' (active) 


Started: 


Verslon: 2.6.0, re3496499ecb8d220fba99dc5ed4c99c8f9e33bb1 


图 4-36 打开 NameNade HDFS Web 界面 


查看 Live Nodes 


向 下 浏览 ， 可 以 看 到 当前 启动 了 1 个 节点 ， 如 图 4-37 所 示 。 


全 localhost ~ej 图 - QQ 位 和 白 节 于 三 


Non Heap Memary used 28.23 MB of 29.75 MB Commited Non Heap Memory Max Non Heap Memory 5 214 Me 


Cconfigured Capactty: 9437 68 
DFS Used: 了 但 

Non DFS Used: 9.52 GB 

DFs Remaining: B45 G8 

DFS Used%: 0% 

DFS Remalning%: Bsi% 

Block Pool Used: 28K8 

Block Pool Usedsk: ow 

DataNodes usages% (Min/Medlan/Max/stdDev): 0.00% 1 0.00% / 0.00% / 0.00%, 
Lve Nodes 

Dead Nodes 9 (Decommissoned: 0) 
Decommisstoning Nodes o 

Number of Under-Replicated Blocks o 


Numher nf Bjorks pendine neletl 


4-37 查看 Live Nodes (启动 的 节点 数 ) 
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D03 查看 DataNodes ( 见 图 4-38 ) 


sy Namenode information 


所 @localhost 


Hadoop ”overview Datanodes Snapshot StartupProgress Utilities 


Datanode Information 


In operation 


hadoop 1 In 9437 
(127.0.0.1:50010) Sevice GB KB 


图 4-38 查看 DataNodes 


结论 


本 章 我 们 介绍 了 如 何 安装 Hadoop Single Node Cluster。 因 为 只 有 一 台 服 务 器 ， 所 有 功能 
都 集中 在 一 台 服 务 器 中 , 所 以 无 法 发 挥 分 布 式 计 算 与 存储 的 功能 。 下 一 章 我 们 将 介绍 如 何 安装 
由 多 台 计 算 机 组 成 的 Hadoop Multi Node Cluster。 


第 5 章 
Hadoop NMulfi Node 
Cluster 的 安装 


本 章 将 介绍 如 何 安装 多 台 机 器 的 Hadoop 集群 (Hadoop 
Multi Node Cluster)， 以 及 Hadoop 资源 管理 (ResourceManager) 
与 NameNode HDFS Web 界面 。 


第 5 章 Hadoop Mult Node Cluster 的 安装 S 


Hadoop Multi Node Cluster 规划 如 图 5-1 所 示 ， 由 多 台 计 算 机 组 成 : 


@@。 有 一 台 主 要 的 计算 机 master, 在 HDFS 担任 NameNode 角色 、 在 MapReduce2( YARN ) 
担任 ResourceManager 角色 。 

@@ 有 多 台 辅 助 计算 机 datal、 data2、data3, 在 HDFS 担任 DataNode 角色 、 在 MapReduce2 
(YARN ) 担任 NodeManager 角色 。 


©® HDFS: NameNode 
© MapReduce2: ResourceManager 


= 


192.168.56.100 


bd HDFS: DataNode . HDFS: DataNode @ HDFS: DataNode 
bd YARN: NodeManager bd YARN: NodeManager @ YARN: NodeManager 


192.168.56.1 厅 192 168 .56. 夯 一 192.168.56.109 


图 5-1 Hadoop Multi Node Cluster 规划 图 


与 图 5-1 对 应 的 Hadoop Multi Node Cluster 规划 说 明 如 表 5-1 所 示 。 
表 5-1 规划 表 
服务 器 名 称 内 部 IP HDFS YARN 


am msao |poe | | 


图 5-1 的 Hadoop Multi Node Cluster 架构 必须 有 4 台 实 体 服务 器 才能 建立 ， 以 发 挥 多 台 计 
算 机 并 行 处 理 的 优势 。 

考虑 到 大 部 分 读者 只 有 一 台 个 人 计算 机 ， 为 了 方便 大 家 上 机 演练 ， 这 里 我 们 使 用 
VirtualBox 创建 4 台 虚 拟 主机 master、datal 、data2 、data3 。 因 为 是 虚拟 主机 ， 所 以 无 法 享受 
到 多 台 计 算 机 并 行 处 理 的 优势 。 不过， 你 在 虚拟 主机 所 学 到 的 设置 ， 完 全 可 以 用 于 创建 实体 主 
机 Hadoop Multi Node Cluster。 
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> Hadoop Multi Node Cluster 的 安装 步骤 ( 见 表 5-2 ) 
表 5-2 ”安装 步骤 说 明 
安装 步骤 说 明 


复制 Single Node Cluster 到 | 为 了 节省 安装 时 间 ， 我 们 将 第 4 章 所 创建 的 Single Node Cluster 
datal Hadoop 复制 到 datal， 创 建 datal 虚拟 机 


设置 两 块 适 配 卡 
i :i 时 i ms 以 通过 
VirtualBox 适 配 卡 设置 ba Pr NAT 适 配 卡 可 以 通过 Host 主 


。 适 配 卡 2: 设置 为 “内 部 网 络 适配器 ”， 用 于 建立 内 部 网 络 


设置 Multi Node Cluster 服务 器 ， 配置 设置 文件 共同 的 部 分 ( 固 
设置 datal 服务 器 定 IP、 hostname、 core-site.xml、 YARN-site.xml、 mapred-site.xml、 
hdfs-site.xml) 


复制 datal 服务 器 至 data2、 | 我 们 已 经 设置 了 datal 服务 器 、 配 置 设置 文件 共同 的 部 分 ， 为 了 
data3 、master 节省 安装 时 间 ， 所 以 复制 datal 到 data2 、data3、master 


国 设置 data2 服务 器 设置 data2 固定 ip、hostname 
设置 data3 服务 器 设置 data3 固定 ip、hostname 


设置 NameNode 服务 器 (master) : 设置 固定 P、hostname、 
hdfs-site.xml 、masters、slaves 


master 连接 到 datal、data2、 | 重新 启动 master 与 datal、data2、data3 后 ，master 通过 SSH 连 
data3 创建 HDFS 目录 接 datal、data2、data3 并 创建 HDFS 目录 


建立 与 格式 化 NameNode 

HDFS 目录 创建 NameNode HDFS 目录 ， 并 且 格式 化 HDFS 目录 
加 op Me Woe 启动 Hadoop Multi Cluster 并 使 用 jps 查看 当前 所 运行 的 进 

cluster 


打开 Hadoop Resource Hadoop ResourceManagerWeb 界面 可 用 于 查看 当前 Hadoop: Node 
Manager Web 界面 节点 、 应 用 程序 、 进 程 运行 状态 


打开 NameNode Web 界面 。 | HDFS Web 界面 ， 可 以 检查 当前 HDFS 与 DataNode 运行 情况 


> Hadoop 2.6 Multi Node Cluster 安装 命令 

对 于 安装 过 程 中 所 需要 输入 的 命令 ,我 们 已 整理 在 本 书 有 关 的 博客 文章 中 。 当 练习 安装 时 ， 
可 以 复制 博客 文章 中 的 命令 ,然后 粘贴 到 “终端 ”程序 中 。 这样 既 可 以 节省 打字 的 时 间 ， 也 不 
用 担心 打 错 字 〈 如 果 无 法 在 VirtualBox 虚拟 机 的 Ubuntu“ 终 端 ” 程 序 进行 复制 /粘贴 操作 ， 请 
参考 第 3.9 节 的 说 明 ， 设 置 好 VirtualBox 的 共享 剪贴 板 )。 本 书 的 博客 网 址 为 


设置 master 服务 器 


http://blog.sina.com.cn/hadoopsparkbook 
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5 把 Single Node Cluster 复制 到 datal 


为 了 节省 安装 时 间 , 我 们 将 复制 第 4 章 所 创建 的 Single Node Cluster 来 创建 datal 虚拟 机 。 
如 果 不 使 用 复制 虚拟 机 的 方法 ， 也 可 以 重复 第 4 章 的 步骤 来 创建 datal 。 


G01 复制 Hadoop 到 datal ( 见 图 5-2 ) 


| 间 Oracle VM VirtualBox 管理 器 . 单 击 hadoop 虚拟 机 ， 然 后 单 击 鼠标 右键 


阅 允 8D) 回 备 份 [条 统 快照 ]B) 


Ctrl+S 


Ctrl+O 
| 器 副 除 (R). Ctrl+R op 
入 编组 (U) 
KYM 站 砌 拟 化 
|i 喉 后 动人) 
暂停 (P) Ctrl* 


jpGoesaddiionmim 56546MB) 


图 5-2 复制 Hadoop 到 datal 


人 2 设置 虚拟 机 名 称 ( 见 图 5-3 ) 


再 


0 i 入 | 扰 扩 村 | 的 
| 最 全 8) 河 站 BO 复制 虚拟 电脑 1. 输入 虚拟 机 的 名 称 datal 


选择 一 个 名 称 ”新 虚拟 电脑 村 是 虚拟 电脑 Hadoop 的 


回 重新 初始 化 所 有 网 卡 的 MAC 地址 人 ) 


2. 勾 选 “重新 初始 化 所 有 网 
的 MAC 地 址 ” EE | “下 一 步 ” 按 钮 


专家 模式 E)| | 下 一 | sm | 


图 5-3 设置 虚拟 机 名 称 
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人 03 设置 复制 类 型 
先 参照 图 5-4 所 示 的 步骤 选择 复制 类 型 ， 再 单 击 “ 复 制 ” 按 钮 ， 需 要 等 待 几 分 钟 。 


沪 激 喻 . 0) 


新 建 0) 雇 置 (6) 光 尝 ”局 动 (T) ”复制 虚拟 电脑 


副本 类 型 


请 迁 择 创建 副本 的 方式 
FE 4 + 刚 生 成 一 个 与 原 虐 拟 电 脑 充 整 的 副本 (复制 | 全 部 虚 
链接 复制 ， 朋 | 生成 一 个 新 虚拟 电脑 ， 不 过 新 虚拟 电脑 的 虚拟 
a 因此 这 种 副本 要 移动 到 列 的 
电脑 上 的 时 候 ， 需要 桂 原 庶 拟 电脑 一 并 移动 
3 6 er A 如 果 生 成 链接 副本 ， 复 制 | 的 过 程 中 插 为 原 虚 拟 电脑 生成 一 个 新 备 
选中 “完全 从 


1 > * 
复制 ” 上 = 2. 单 击 “复制” 按钮 
图 完全 复制 () 


口 馆 撞 复制 (L) 


5-4 设置 复制 类 型 
人 4 复制 完成 
复制 完成 后 就 会 出 现 datal， 如 图 5-5 所 示 。 
章 Oracle VM VirtualBox 管理 器 一 口 x 
管理 (P) 控制 (M) 帮助 (H) 复制 完成 datal 
加 昌 D) 加 备份 [ 东 统 快照 ](G) 


问 深 少 全 


靳 建 QW) 设置 人 G) 滑 附 ”是 动 (及 


加 旬 规 回 预览 

名 称 。 datal 

操作 系统 ， Ubunt (54-big 

国 伯 统 

内 存 大 小 : 4096 MB datal 


后 动 顺序 、 软驱 , 光驱 , 硬盘 
硬件 加 速 ，YT-wAMD-Y, 谋 春分 页 ,KYM 半 上 庶 拟 化 


回 2 示 v 


图 5-5 复制 完成 


设置 VirtualBox 网 卡 


设置 VirtualBox 网 卡 ， 如 图 5-6 所 示 。 
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网 卡 1 
仅 主机 适配器 
(网 卡 ) 
| te y Ps 1 
a | [ a | 
T I I I I 
92.168.56.107 [9216856 澡 [92168 56 十 | 
1 
Bd 
NAT 网 卡 


5-6 设置 网 卡 示意 图 


(1) 最 右边 是 Host 主机 ， 就 是 我 们 安装 VirtualBox 的 主机 ， 本 书 范例 安装 的 是 Windows 
系统 ， 在 VirtualBox 上 我 们 将 创建 4 台 虚 拟 主机 ， 分 别 是 master、datal 、data2、data3 。 
(2) 我 们 将 在 每 一 台 虚 拟 主机 上 设置 2 张 网 卡 。 
@ 网 卡 1: 设置 为 “NAT 网 卡 ”， 可 以 通过 Host 主机 连接 到 外 部 网 络 (internet ) 。 
@ ”网卡 2: 设置 为 “ 仅 主机 适配器 ”( 这 里 的 适配器 指 的 是 网 卡 )， 用 于 创建 内 部 网 络 ， 
内 部 网 络 连接 虚拟 主机 ( master、datal、data2、data3 ) 与 Host 主机 。 


{I01 设置 网 卡 
请 参照 图 5-7 所 示 的 步骤 设置 datal 网 卡 。 


章 Oracle VM VirtualBox 管理 器 


= “OX 
管理 (F) ”控制 (M) 帮助 (H) 2. 单 击 “ 设 置 ”按钮 
党 党 池 仿 - 加 可 ED) 加 备份 休 统 岂 R]G) 
靳 建 人 0) | 放 普 全 | 汪峰 ” 且 动 (1) 


时 六 m Ba g ms 
二 


aa 
Be 操作 系统 :Ubuntu (54-big 
A 国 加 


内 存 大 小 :4096 MB datal 
后 动 其 序 。 软驱 , 光驱 , 硬盘 
硬件 加 速 。YT-xihMD-Y, 谋 大 分 页 ,&YM 半 乱 拱 化 


1. 单 击 datal 虚拟 机 


图 5-7 设置 datal 网 卡 
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人 2 设置 网 卡 1: “NAT” 网 卡 


设置 网 卡 1 为 “NAT” 网 卡 ， 这 样 虚 拟 主机 就 可 以 通过 Host 主机 连接 至 外 部 网 络 
(Cinternet) ， 具 体 设置 步骤 如 图 5-8 所 示 。 


七 datal -设置 
一 一 一 一 一 一 2. 单 击 “ 网 卡 1” 
加 常规 | | 网络 


国 系统 ki | ka 本 rs 


豆 示 回 局 用 网 络 连接 ( 
界面 名 称 人 N): 4 
防 声言 忆 商 级 () 


| 3. 选择 “网 络 地 址 转换 (NAT)” 
的 usB 设 各 | | 1. 单 击 “ 网 络 ” 


共享 文件 夫 
国 用 户 界面 


图 5-8 设置 网 卡 1 
703 设置 网 卡 2: 仅 主机 适配器 (网卡 ) 
设置 网 卡 2 为“ 仅 主机 适配器 ”网 卡 )， 用 于 建立 内 部 网 络 ， 内 部 网 络 可 连接 虚拟 主机 


(master、datal、data2、data3) 与 Host 主机 。 具 体 设置 步骤 如 图 5-9 所 示 。 


疙 datal - 设置 1 单 击 “ 网 卡 2” 2 
网 常规 | 网络 ] 
和 2. 勾 选 “ 启 用 网 络 连接 ” 

显示 回 

连接 方式 (&) 

a 界面 名 称 0D) [ViralBox Host Only Ethemet Adapler 3. 选择 “ 仅 主 机 (Host-Only) 
i Se 适配器 ”( 网 卡 ) 
合 =0 
羽 USB 设备 
共 训 文件 天 | | 4. 单 击 “ 确 定 ”按钮 
国 用 户 界面 


5-9 设置 网 卡 2 
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目前 只 设置 datal ， 后 续 我 们 会 将 datal 复制 至 data2、data3、master， 也 会 将 这 些 设置 
复制 过 去 。 


053 设 秆 data1 服务 器 


设置 Multi Node Cluster 服务 器 ， 配 置 设置 文件 共同 的 部 分 : 固定 IP、hostname、 


core-site.xml、 YARN-site.xml、mapred-site.xml、hdfs-site.xml。 


人 ET) 启动 datal 虚拟 机 


复制 完成 后 就 会 出 现 datal。 单 击 datal, 然后 单 击 “ 启 动 ” 按 钮 来 启动 虚拟 机 ， 如 图 5-10 
所 示 。 


章 Oracle VM VirtualBox 管理 器 on 


管理 (F) 控制 (M) 帮助 (H) EE 击 “ 启 动 ”按钮 
兴 站 Be 国 是 ED) 加 备份 [ 床 统 快 风 G6) 
靳 建 人 W) 设置 从 ) 两 时 | 仿 - 


A YR en ee 有 


属 R Ms an et 
par anh (54-bid 
癌 9 ERM 国名 


让 4096 MB datal 


绪 , 光驱 ， 
a 加，YT-XAMD-Y， Yo KYM 站 庶 拟 化 
1. 单 击 datal 


图 5-10 启动 datal 虚拟 机 
人 2 编辑 网 络 配置 文件 设置 固定 IP 


我 们 必须 设置 datal 虚拟 主机 每 次 开机 都 是 使 用 固定 卫 : 192.168.56.101, 请 在 datal 的 “ 终 
端 ” 程 序 中 输入 下 列 命令 : 


> 编辑 interfaces 网 络 配置 文件 


sudo gedit /etc/network/interfaces 


输入 后 按 Enter 键 就 会 打开 interfaces 文件 ， 屏 幕 显 示 界 面 如 图 5-11 所 示 。 
编辑 完成 后 ， 先 保存 ， 再 关闭 gedit。 


以 上 设置 说 明 如 下 : 
> 设置 网 卡 1 


设置 为 “NAT 网 卡 ”， 可 以 通过 Host 主机 连接 至 外 部 网 络 (internet)， 设 置 为 eth0， 并 
设置 dhcp 自动 获得 IP 地 址 。 
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interfaces (/etc/network) - gedit 


interfaces x 


# interfaces(5) file used by ifup(8) and ifdown(8) 
auto lo 


iface lo inet loopback 

he 
auto ethe 

iface ethe inet dhcp 


# host only interface 

auto eth1i 

iface eth1 inet static 
address 192.168.56.161 
netmask 255.255.255.9 
network 192.168.56.g| 
broadcast 192.168.56.255 


纯 文 本 ” ” 制 表 符 宽度 : 8 * 行 14 , 列 29 插入 


5-11 编辑 interfaces 网 络 配置 文件 


> 设置 网 卡 2 
设置 为 “ 仅 主 机 适配器 ”， 用 于 建立 内 部 网 络 ， 内 部 网 络 连接 虚拟 主机 (master、datal、 
data2、data3) 与 Host 主机 。 设 置 为 eth1， 并 设置 为 static， 即 指定 固定 IP 地 址 。 


人 3 设置 hostname 


然后 必须 设置 datal 的 hostname (主机 名 )。 
在 datal 的 “终端 ”程序 中 输入 下 列 命令 : 


> 编辑 hostname 主机 名 


sudo gedit /etc/hostname 


输入 后 按 Enter 键 就 会 打开 hostname 显示 界面 ， 如 图 5-12 所 示 。 


*hostname (/etc) - gedlt 


图 5-12 编辑 hostname 主机 名 
编辑 完成 后 ， 先 保存 ， 再 关闭 gedit。 
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人 04 设置 hosts 文件 


我 们 建立 的 Hadoop Multi Node Cluster 中 有 4 台 计 算 机 ,如 何 让 网 络 中 所 有 的 计算 机 都 知 
道 其 他 计算 机 的 主机 名 与 IP 呢 ? 可 以 编辑 hosts 文件 或 设置 DNS。hosts 文件 通常 用 于 补充 或 
取代 网 络 中 DNS 的 功能 ， 和 DNS 不同 的 是 ， 计 算 机 的 用 户 可 以 直接 对 hosts 文件 进行 控制 。 
hosts 文件 可 存储 计算 机 网 络 中 各 节点 的 信息 ,负责 将 主机 名 映射 到 对 应 的 IP 地 址 (名 字 解 析 )。 
请 在 datal“ 终 端 ” 程序 中 输入 下 列 命令 : 


> 编辑 hosts 文件 


sudo gedit /etc/hosts 


输入 后 按 Enter 键 就 会 打开 hosts 文件 ， 请 设置 各 节点 的 主机 名 与 相对 应 的 IP 地址 ， 如 图 
5-13 所 示 。 


*hosts x 


127.0.0.1 localhost 
127.6.1.1 hadoop 


192.168.56.100 master 
192.168.56.101 datal 
192.168.56.102 data2 
192.168.56.163 data3 


输入 每 一 台 主 机 对 应 


的 他 地 址 


# The following lines are desirable for IPv6 capable hosts 
::1 ip6-localhost ip6-loopback 

fe66::6 ip6-localnet 
ff66::9 ip6-mcastprefix 


图 5-13 编辑 hosts 文件 
编辑 完成 后 ， 先 保存 ， 再 关闭 gedit。 


人 5 编辑 core-site.xml 


在 core-site.xml 中 , 我 们 必须 设置 HDFS 的 默认 名 称 , 当 使 用 命令 或 程序 来 存 取 HDFS 时 ， 
可 使 用 此 名 称 。 之 前 Single Node Cluster 因为 只 有 一 台 计 算 机 ， 所 以 我 们 设置 namenode 位 置 
为 localhost 即 可 ， 但 是 现在 有 多 台 计 算 机 ， 所 以 必须 指定 主机 名 。 

请 在 datal 的 “终端 ”程序 中 输入 下 列 命 令 : 


> 编辑 core-site.xml 
sudo gedit /usr/local/hadoop/etc/hadoop/core-site.xml 


输入 后 按 Enter 键 就 会 打开 core-site.xml， 如 图 5-14 所 示 。 
编辑 完成 后 ， 先 保存 ， 再 关闭 gedit。 之 后 当 使 用 程序 存 取 HDFS 时 ,会 使 用 
hdfs://master:9000 这 个 目标 来 存 取 HDFS。 
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*core-site.xml (Jusr/local/hadoop/etc/hadoop) - gedit 


*core-site.xml x 


http://www.apache. org/licenses/LICENSE-2.0 


Unless required by applicable law or agreed to in writing, software 
distributed under the License is distributed on an "AS IS" BASIS, 
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND ， either express or implied. 
See the License for the specific Language governing permissions and 


limitations under the License. See accompanying LICENSE file. 


<!-- Put site-specific property overrides in 


<configuration> 
BER 把 localhost 改 


<name>fs .de n afe> 
<value>hdfs| 66</vatue> 

</property> 

</configuration> 


XML " ” 制 表 符 宽度 : 8 ~ 行 22 , 列 24 


5-14 ”编辑 core-site.xml 


四 TFT06 编辑 YARN-site.xml 


YARN-site.xml 文件 是 MapReduce2 (YARN) 相关 配置 的 设置 。 


在 datal 的 “终端 ”程序 中 输入 下 列 命令 : 


> 编辑 YARN-site.xml 


sudo gedit /usr/local/hadoop/etc/hadoop/yarn-site.xml 


输入 后 按 Enter 键 就 会 打开 YARN-site.xml， 屏 幕 显示 界面 如 图 5-15 所 示 ， 


示 中 的 指令 。 


“yarn-site.xml (Jusr/local/hadoop/etc/hadoop) - gedit 


yarn-site.xml x 


|<configuration> 
[<proper ty> 
<name>yarn. nodemanager .aux-services</nane>, 
<value>mapreduce_shuffle</value> 
|</property> 
[<proper ty> 


[</property> 

|<property> 
<name>yarn.resourcemanager 

<value>master :8025</value> 


resource-tracker.address</name-| 


<name>yarn. resour cemanager 
<value>master :8030</value> 
|</property> 


.scheduler .address</nane> 


<vatue>master:8656</vatue> 
|</property> 
/configuration> 


XML ， 制 表 符 宽度 : 8 


图 5-15 编辑 yarn-site.xml 
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编辑 完成 后 ， 先 保存 ， 再 关闭 gedit。 
上 述 命令 设置 与 说 明 如 下 : 
@ ResourceManager 主机 与 NodeManager 的 连接 地 址 为 8025。 
@ ResourceManager 与 ApplicationMaster 的 连接 地 址 为 8030。 
@ ResourceManager 与 客户 端的 连接 地 址 为 8050。 
人 7 编辑 mapred-site.xml 


mapred-site.xml 用 于 设置 监控 Map 与 Reduce 程序 的 JobTracker 任务 分 配 情 况 ， 以 及 
TaskTracker 任务 运行 状况 。 在 datal 的 “终端 ”程序 中 输入 下 列 命 令 


> 编辑 mapred-site.xml 
sudo gedit /usr/local/hadoop/etc/hadoop/mapred-site.xml 


输入 后 按 Enter 键 就 会 打开 mapred-site.xml， 如 图 5-16 所 示 。 


hduser@hadoop:~$ sudo gedit /usr/Local/hadoop/etc/hadoop/mapred-site.xml 


mapred-site.xml We es ss gedit 


编辑 (E) 查看 (V) 搜索 ( (文档 (D) 帮助 (HI) 


Re 


mapred-site.xml x 
Lmttatlons under the License. See acconpanying LICENSE ttle. 


ER 修改 设置 map reduce job tracker 的 
<nane>napred. job. tracker</nane> 
<value>master:54311</value> 连接 地 址 为 master:5431 1 


</property> 


</configuration> 


图 5-16 编辑 mapred-site.xml 


编辑 完成 后 ， 先 保存 ， 再 关闭 gedit。 


人 8 编辑 hdfs-sitexml 


re xml 用 于 设置 HDFS 分 布 式 文件 系统 的 相关 配置 。 之 前 在 Single Node Cluster 中 
因为 只 有 一 台 服 务 器 ， 所 以 同时 身 兼 NameNode 与 DataNode 角色 。 但 是 datal 现在 只 是 单纯 
的 DataNode， 所 以 请 删除 NameNode 的 设置 ， 只 保留 DataNode 的 设置 。 

请 在 datal 的 “终端 ”程序 中 输入 下 列 命令 : 


> 编辑 hdfs-site.xml 
sudo gedit /usr/local/hadoop/etc/hadoop/hdfs-site.xml 


输入 后 按 Enter 键 就 会 打开 hdfs-site.xml， 如 图 5-17 所 示 。 
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shdfs-site.xml (/usr/local/hadoop/etc/hadoop) - gedit 


有 文件 (F) 编辑 (日 


*hdfs-site.xml x 


distributed under the License is distributed on an "AS IS" BASIS, 
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or inplied. 
See the License for the specific language governing permissions and 
limitations under the License. See acconpanying LICENSE file. 


<!-- Put site-specific property overrides in this file. --> 


<configuration> 

<property> a a 
hi ep Ltnttone/ hams 设置 DataNode HDFS 存储 目录 
<value>3</value> 

</property> 


property> 

<name>dfs.datanode.data.dir</name> 

<value> file:/usr/local/hadoop/hadoop_data/hdfs/datanode</value> 
</property> 
</configuration> 


XML " 制 表 符 宽度 : 8 ” 行 31, 列 1 插入 


图 5-17 编辑 hdfs-site.xml 


编辑 完成 后 ， 先 保存 ， 再 关闭 gedit。 


D09 datal 重新 启动 ( 见 图 5-18) 


ET TE tualbox 


FEr FELLE EEL 


图 5-18 重新 启动 


人 IO 确认 网 络 设置 ( 见 图 5-19 ) 


新 启动 后 ， 在 datal 的 “终端 ”程序 中 输入 下 列 命令 ,确认 网 络 设置 : 


ifconfig 


从 图 5-19 所 示 的 界面 可 以 看 到 , 有 eth0 与 ethl 两 块 网 卡 , 并 且 内 部 IP 是 192.168.56.101。 
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hduser@datal1: ~ 
hduser@data1l:~$ ifconfig 
p 网 一 -08 TASTIIT 网 
inet 地 址 : 10.0.2.15 广播 : 10. 6.2.255 掩 码 : 255.255.255.0 
inet6 地 址 : fe86::a66:27ff:fe45:1929/64 Scope:Link 
UP BROADCAST Rote MULTICAST ，MTU:1568 跃 点 数 :1 


弃 :9 过 载 :6 帧 数 :6 
莽 :e 过 载 :9 载波 :9 


发 送 字 节 :9631 (9.6 kB) 


nk Se 以 太 网 硬件 地 址 88:00:27:02:6d:c2 


1 所: 192.168.56.255 255.255.255.0 


0 人 数 :0 


发 丑 弃 载波 : 
碰撞 :6 发 送 队列 长 度 : 1666 
收 字 节 :6 (6.6 8) 发 送 字 节 :6254 (6.2 KB) | 内 部 全 是 192.168.56.101 


Link encap: 本 地 环 回 

inet 地 址 ;127.9.6.1 掩 码 :255.6.6.9 

tnet6 地 址 : ::1/128 Scope:Host 

UP LOOPBACK RUNNING MTU:65536 ” 跃 点 数 :1 
:9 过 载 :6 帧 数 :6 


发 : 误 : :9 过 载 :6 载波 :0 
碰撞 :6 发送 队列 长 度 :6 
接收 字 节 :7964 (7.9 kB) 发 送 字 节 :7964 (7.9 KB) 


图 5-19 确认 网 络 设置 
Ti1 确认 对 外 网 络 连接 正常 
可 以 打开 浏览 器 ， 确 认 对 外 网 络 连接 正常 ， 如 图 5-20 所 示 。 


rh = Mouille Preto 1. 单 击 Firefox 


2. 确认 对 外 网 络 


Google Maps Translate 
Findlocal Googie's fee service instanty 
and got diving tranclates ， adtess or 


届 | 团 图 


Docs Google News ee 


[9 


图 5-20 确认 对 外 网 络 连 接 正常 


212 datal 虚拟 机 关机 
因为 我 们 后 续 要 将 datal 复制 到 data2、data3、master， 所 以 必须 先 关 机 ， 如 图 5-21 所 示 。 
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| 量 datal [正在 运行] - Oracle VM VirtualBox = 


加 四 甲 少 司 加 时 加 你 加 Rshtcn 


图 5-21 datal 虚拟 机 关机 


5.4 复制 data1 服务 器 到 data2、data3、master 


因为 目前 datal 已 经 设置 了 Hadoop Multi Node Cluster 共同 的 部 分 ， 为 了 节省 安装 时 间 ， 
所 以 复制 datal 到 data2、data3、master。 如 果 不 使 用 虚拟 机 ， 也 可 以 重复 之 前 的 步骤 来 创建 


data2、data3、master。 


(人 To1 将 datal 复制 到 data2 ( 见 图 5-22 ) 


章 Oracle VM VirtualBox 管理 器 
管理 (F) 控制 (M) 帮助 (H) 


jy 


SE 


| 玉昌) 认 半 8) 到 BD) 
| 图 问 Haoo 
| 半 @ ET 


Be 


1. 单 击 datal 虚拟 机 ， 单 击 鼠标 右键 。 “| 众 [ 统 快 册 6) 


轩 党 规 加 预览 ~ 
名 | datal 

操作 条 统 ， Ubuntu (54-big 

Ctrl*S | 


Ctrl+O 


datal 
Ctrl+R 


器 ”删除 (R)... Enf 
贸 编组 (U) 


暂停 T 


图 5-22 复制 datal 
本 B02 输入 虚拟 机 名 称 data2 ( 见 图 5-23 ) 
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复制 虚拟 电脑 


2 
1. 输入 虚拟 机 名 称 data2 


新 虚拟 电脑 名 称 


3. 单 击 “ 下 一 步 ”按钮 


图 5-23 输入 虚拟 机 名 称 


DI03 选择 复制 类 型 ( 见 图 5-24 ) 


人 


| 
”复制 虚拟 电脑 
副本 类 型 
请 选择 创建 副本 的 方式 
若 选择 完全 复制 ， 则 生成 一 个 与 原 虚 拟 电脑 完整 的 副 
本 ( 滥 制 全 部 虚拟 硬盘 文件 ) * 


若 选择 链接 复制 ， 则 生成 一 个 新 虚拟 电脑 ， 不 过 新 虐 
拟 电脑 的 虚拟 硬盘 是 兰 定 到 原 虚 拟 电脑 的 庶 拟 硬盘 的 ， 
因此 这 种 副本 要 移动 到 网 j 的 电脑 上 的 时 候 ， 需 要 将 原 虚 
拟 电 脑 一 并 移动 > 


如 果 生成 链接 副本 ， 复 制 的 过 程 中 将 为 原 虚拟 电脑 生 
成 一 个 新 备份 * 

1. 选择 “完全 复制 ” 
吕 〇 访 接 复制 () 


2. 单 击 “ 复 制 ” 按 钮 


GE 


5-24 选择 复制 类 型 


人 D04 datal 复制 到 data2 虚拟 机 
单 击 “ 复 制 ” 按 钮 后 ， 等 候 数 分 钟 复 制 就 完成 了 ， 接 着 会 出 现 data2 的 图 标 ， 如 图 5-25 
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章 Oracle VM VirtualBox 管理 器 
管理 (FP) ”控制 (M) 帮助 (H) 


多 深 业 号 


对 于 QI) 设 普 B) 瑞 浸 ”电动 (1) 


国 可 


data2 
datal Ubuntu (64-bil) 
国电 用 


小 4096 MB 
软驱 , 光 台 ,硬盘 
TYT-xAMD-Y, 谋 到 分 页 ,KYM 夺 虚 所 化 


图 5-25 复制 完成 
人 5 datal 复制 到 data3、master 虚拟 机 


EE 复 步骤 1~4， 将 datal 虚拟 机 复制 到 data3 虚拟 机 。 
EE 复 步 又 1~4， 将 datal 虚拟 机 复制 到 master 虚拟 机 。 


如 图 5-26 所 示 ， 我 们 已 经 将 datal 虚拟 机 复制 到 data2、data3、master 虚拟 机 。 


章 Oracle VM VirtualBox 管理 器 


2 


靳 建 0) 放置 全 ”再 附 ”时 动 (D) 
同 预 作 


master 
Ubuntu (64-bid) 


加 骤 , 光 驴 ,硬盘 
YT-WAMD-Y, 访 天 分 页 ,EYM 站 虚 拟 化 


图 5-26 复制 完成 
C3706 选择 虚拟 机 进行 内 存 设置 ( 见 图 5-27 ) 


章 Oracle VM VirtualBox 管理 器 
管理 (F) 控制 (M) 帮助 (H) 


- | 2. 单 击 “ 设 置 ”按钮 


DO) 


加 宣 规 加 预览 
各 格 ， 


dalal 


国 杂 统 
内 存 大 小 。4096 MB 


后 卉 顺序 。 软驱 , 光驱 ,硬盘 
硬件 YT-WAMD-Y, 广大 分 页 , KYM 丰 虚 拟 化 


号 master 
图 图 本 B 且 


管理 (控制 (M) 帮助 (H) 1 复制 完成 的 data2、data3 与 master 虚拟 机 


他 是 ED) 回 备份 陈 统 块 了 中 16) 


小 ，4096 MB master 


图 5-27 选择 虚拟 机 
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1. 单 击 datal 
虚拟 主机 


第 5 章 Hadoop Multi Node Cluster 的 安装 二 


I07 虚拟 机 内 存 设置 ( 见 图 5-28 ) 


万 datal -设置 本 .加 
国 常规 | 系统 
ET TE daa 


BB 软驱 
[zoOR.4 


回 

> 

另 网 络 回回 硬盘 
[ed 


声音 局 动 顺 序 B) 


轿 团 


SH): [EX 


USB 设备 指点 没 备 (P) [TSEE 
图 共享 文件 夫 扩展 符 性 : 回 启用 IO APIC 
国 Rr me PE 
取消 “| | 更 动 中 | 
图 5-28 设置 内 存 


关于 虚拟 机 的 内 存 设 置 ， 主 要 是 由 Host 实体 主机 (PC 或 服务 器 ) 的 内 存 大 小 来 决定 : 


@ 如果 物理 内 存 是 16GB， 建 议 设置 为 master 4GB、datal: 2GB、data2: 2GB、data3: 
2GB. 

@ ”如果 物理 内 存 是 8GB， 建 议 设置 为 master: 2GB、datal: 1GB、data2: 1GB、data3: 
1GB. 

@ ”如 果 物 理 内 存 只 有 4GB， 建 议 只 使 用 Single Node Cluster: 2GB。 


如 果 虚 拟 机 的 内 存 设置 总 和 超过 Host 实体 主机 内 存 的 大 小 , 就 可 能 会 造成 实体 主机 宕 机 。 


本 设置 data2 服务 器 


接 下 来 ， 设 置 data2 的 固定 P、hostname。 
I01 启动 data2 虚拟 机 ( 见 图 5-29 ) 
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章 Oracle VM VirtualBox 管理 器 
管理 (P) ”控制 (M) 帮助 (H) . 单 击 “ 启 动 ”按钮 


演 党 y 多 有 BOD) 回音 份 [条 统 块 照 ]G) 
电动 (TD) 


新 未 Qi) 设 次 G) 汤 际 


| Hadoo; 网 常规 园 预览 
中 m 
A 名 称 : data2 
隔 司 uatal 操作 系统 Ubuntu (64-bi0 
| @ 关闭 症 坏人 


隐 i 内 存 大 小 :4096 MB data2 
局 O'ER 用 县 动 | 顺序 : 软驱 ,光驱 ,硬盘 
一 硬件 加 速 ，YT-XAMD:Y, 谋 夺 分 页 , KYM 站 虚拟 化 


辐 master 

多 已 关闭 显示 

= ee 1. 单 击 data2 虚拟 机 
人 


已 禁用 
已 禁用 


5-29 启动 data2 虚拟 机 
02 设置 data2 固定 IP 地 址 


我 们 必须 设置 data2 虚拟 主机 每 次 开机 都 是 使 用 固定 IP 地 址 : 192.168.56.102。 
在 data2 的 “终端 ”程序 中 输入 下 列 命令 : 


> ”编辑 interfaces 网 络 配置 文件 
sudo gedit /etc/network/interfaces 


输入 后 按 Enter 键 就 会 打开 interfaces 文件 ， 屏 人 幕 显示 界面 如 图 5-30 所 示 。 


interfaces (/etc/network) - gedit 


interfaces x 
# interfaces(5) file used by ifup(8) and ifdown(8) 
auto Lo 
iface lo inet Loopback 


请 将 IP 由 原先 的 192.168.56.101 


# NAT interface 
auto ethe 
iface ethe inet dhcp 


修改 为 192.168.56.102 


# host only interface 


auto eth1 

iface eth1 ine 

address 

netmask 255.255.255.0 
network 192.168.56.0 
broadcast 192.168.56.255 


图 5-30 修改 下 地 址 
编辑 完成 后 ， 先 保存 ， 再 关闭 gedit。 
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人 3 设置 data2 主机 名 
请 在 data2 的 “终端 ”程序 中 输入 下 列 命令 : 


> 编辑 hostname 文件 
sudo gedit /etc/hostname 
输入 后 按 Enter 键 就 会 打开 hostname 文件 ， 屏 幕 显 示 界 面 如 图 5-31 所 示 。 


© hostname (/etc) - gedit 
查看 (V) 搜索 (S$) 工具 (T) 文档 (D) 帮助 (H) 


. 撤消 


| . 虽 隐 # 略 和 让 加 


hostname X 


| 文件 (F) 编辑 (6) 


设置 为 data2 


图 5-31 设置 data2 主机 名 


编辑 完成 后 ， 先 保存 ， 再 关闭 gedit。 
JI04 重新 启动 data2 虚拟 机 ( 见 图 5-32 ) 


明 dataz [正在 运行 ] - Orade 
视图 灼 刍 


您 确定 关闭 所 有 程序 并 关机 吗 


四 


FRFTECIT FEELEN 


图 5-32 重新 启动 


05 重新 启动 后 确认 data2 虚拟 机 是 否 设置 正确 
新 启动 后 ， 在 data2“ 终 端 ” 程 序 中 输入 下 列 命令 : 
> 查看 网 络 设置 


ifconfig 


去 行 后 结果 如 图 5-33 所 示 。 从 中 可 以 看 到 提示 符号 已 经 改 成 hduser@data2:~$， 代 表 


[hn 


hostname 已 改 为 data2，IP 已 改 为 192.168.56.102。 
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hduser@data2: ~ 


hduseredataz2:- 引 ifconfig 


Link encap:Ethernet HWaddr 68:66:27:66:e8:a6 

tnet addr:16.6.2.15 Bcast:10.0.2.255 Mask:255.255.255. 
tnet6 addr: fe86::a66:27ff:fe66:e8a6164 Scope:Link 

UP BROADCAST RUNNING MULTICAST NMTU:1566 Metric:1 

RX packets:37 errors:6 dropped:6 overruns:6 frame;:6 

TX packets:90 errors:6 dropped:© overruns:9 carrier:6 
collisions:0 txqueuelen:1000 

RX bytes:4549 (4.5 KB) TX bytes:11384 (11.3 KB) 


Link encap:Ethern Huaddr 68:696:27:98:ef:63 

tnet addr Bcast:192.168.56.255 Mas 
tinet6 addr: fe80::a00:27ff:fe98:ef63/64 Scope:Link 
UP BROADCAST RUNNING MULTICAST MTU:1560 Metric:1 
RX packets:6 errors:6 dropped:6 overruns:6 frane:6 
TX packets:53 errors:6 dropped:9 overruns:6 carrier:0 
coLLtstons:6 txqueueLen:1666 


图 5-33 查看 网 络 设置 


:255.255.255.0 
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2. IP: 192.168.56.102 


设置 data3 服务 器 


接 下 来 ， 设 置 data3 的 固定 IP、hostname。 
人 EX) 启动 data3 虚拟 机 ( 见 图 5-34 ) 


章 Oracle VM VirtualBox 管理 器 
管理 (F) 控制 (M) 帮助 (H) 


信 玉 
汪 附 | 号 动 (TD) 


wm 
日 


勒 建 W) 设 次 人 ) 


datal 
国 站 sn 

data2 
因 吝 s 


Had 富 规 
四 路 加 

名 称 : data? 

操作 系统 : Ubuntu (54-bib 
国 系统 


内 存 大 小 : 
后 动 | 顺序 : 
硬件 加 速 : 


4096 MB 
软驱 , 光驱 , 硬盘 


naster 
立 CE 


显示 
显存 大 小 : 12MB 
远程 卓 面 服务 器 已 禁用 
已 禁用 


录 


存储 


BD HD) 备份 [条 统 快 照 ]G) 


回 预览 


YT-wWAMD-Y, 谋 套 分 页 , KYM 半 虚 拟 化 


击 data3 虚拟 机 


图 5-34 
S102 设置 data3 使 用 固定 IP 地 址 


接 下 来 ， 我 们 要 设置 data3 虚拟 主机 每 次 开机 IP 地 址 
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启动 data3 虚拟 机 


固定 使 用 192.168.56.103。 


第 5 章 Hadoop Mult Node Cluster 的 安装 9 


请 在 data3 的 “终端 ”程序 中 输入 下 列 命令 : 


> 编辑 interfaces 网 络 配置 文件 


sudo gedit /etc/network/interfaces 


输入 后 按 Enter 键 就 会 打开 interfaces 文件 ， 屏 幕 显示 界面 如 图 5-35 所 示 。 


interfaces (/etc/network) - gedit 


看 ( 


Dinterfaces x 


# interfaces(5) file used by ifup(8) and ifdown(8) 
auto 1Lo 
tface lo inet loopback 


# NAT interface 请 将 IP 由 原先 的 192.168.56.101 


auto ethe 
tface etho tnet dhcp 修改 为 192.168.56.103 


# host only interface 


192.168.56.163| 


192.158.56.6 
192.168.56.255 


纯 文本 ” 制 表 符 宽度 : 8 > 行 12, 列 31 插入 


图 5-35 修改 IP 
编辑 完成 后 ， 先 保存 ， 再 关闭 gedit。 


D03 设置 data3 主机 名 
请 在 data3 的 “终端 ”程序 中 输入 下 列 命令 : 
> 编辑 hostname 文件 


sudo gedit /etc/hostname 


输入 后 按 Enter 键 就 会 打开 hostname 文件 ， 屏 幕 显 示 界 面 如 图 5-36 所 示 。 


hostname Uetc) - gedit 


图 5-36 设置 data3 主机 名 
编辑 完成 后 ， 先 保存 ， 再 关闭 gedit。 
304 重新 启动 data3 虚拟 机 ( 见 图 5-37 ) 
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VM VirtualBox 


Ubuntu 卓 面 


D 
吾 


闭 所 有 程序 并 关机 吗 ? 


加 


全 


百 
全 
Ee] 


图 5-37 重新 启动 
C05 重新 启动 后 确认 data3 是 否 正确 ( 见 图 5-38 ) 
重新 启动 后 ， 请 在 data3 终端 机 中 输入 下 列 指令 : 

> 查看 网 络 设置 


ifconfig 


运行 后 结果 如 图 5-38 所 示 。 从 中 可 以 看 到 提示 符号 已 经 改 成 hduser@data3:~$， 代 表 
hostname 已 改 为 data3，IP 已 改 为 192.168.56.103。 


hduser@data3: 
ifconfig 1. hostname: data3 
the Link encap:Ethernet HWaddr 68:606:27;:5d:c8:3f 


tnet addr:10.0.2.15 Bcast:10.0.2.255 Mask:255.255.255.0 
inet6 addr: fe80::a00:27ff:feSd:c83f/64 Scope:Link 

UP BROADCAST RUNNING MULTICAST MTU:1560 Metric:1 

RX packets:28 errors:6 dropped:© overruns:6 frame:0 

TX packets:83 errors:6 dropped:6 overruns;:6 carrier:0 
collisions:0 txqueueLen;:1666 

RX bytes:3681 (3.6 KB) TX bytes:16348 (16.3 KB) 


eth1i Link encapx, 0 
tnet addr 5255.255。 2. IP: 192.168.56.103 
tnet6 addr: fe80::a00:27ff:fea6:4908/64 Scope:Link 


UP BROADCAST RUNNING MULTICAST NMTU:1566 Metric:1 
RX packets:1 errors:6 dropped:6 overruns:6 frame:0 
TX packets:53 errors:0 dropped:6 overruns:6 carrier:8 
coLLtstons:6 txqueueLen;1666 

RX bytes:254 (254.6 B) TX bytes:7418 (7.4 KB) 


图 5-38 查看 data3 网 络 设置 


设置 master 服务 器 


在 NameNode 服务 器 (master) 中 需要 设置 固定 IP 地 址 、 hostname、hdfs-site.xml、 masters、 
slaves。 
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人 ET 启动 master 虚拟 机 ( 见 图 5-39 ) 


章 Oracle VM VirtualBox 管理 器 


管理 (P 控制 (M) “启动 ”按钮 


br 本 靖 曾 | 回 备份 态 统 下]) 
新 理 0 攻关 6) 天 
加 器 a 去 
Es 
He 名 称 。。 masker 
aatnl 操作 系统 ， Thunt (64-biD 
轩 @ 忆 关闭 国 玉 
多 2 内 存 大 小 4096 MB ter 
EH © Em 司 动 项 序 、 软 弛 , 光 骤 , 记 生 


硬件 加 速 。YT-XAMD-Y, 谋 大 分 页 ,KYM 站 虐 所 化 


EED 


显存 大 小 : 12MB 
远程 点 面 服务 器 。 已 禁用 
像 已 禁用 


5-39 ”启动 master 虚拟 机 


人 2 设置 master 固定 IP 地 址 


我 们 必须 设置 master 虚拟 主机 每 次 开机 都 使 用 固定 IP 地 址 192.168.56.100。 
在 master 的 “终端 ”程序 中 输入 下 列 命令 : 


> ”编辑 master 的 interfaces 网 络 配置 文件 


sudo gedit /etc/network/interfaces 


输入 后 按 Enter 键 就 会 打开 interfaces 文件 ， 屏 幕 显示 界面 如 图 5-40 所 示 。 


*interfaces (etc/network] - gedit 


sinterfaces x 
# tnterfaces(5) file used by ifup(8) and ifdown(8) 
auto lo 

iface lo inet loopback 


# NAT interface 
auto etho 
tface ethe inet dhcp 


请 将 IP 由 原先 的 192.168.56.101 


# host only interface 
auto eth1i 
tface eth1 inet_sta 
address [192.168.56.100| | 
netmask 255.255.255.9 
network 192.168.56.9 
192.168.56.255 


修改 为 192.168.56.100 


broadcast 


图 5-40 修改 IP 
编辑 完成 后 ， 先 保存 ， 再 关闭 gedit。 


人 3 设置 master 主机 名 
在 master 的 “终端 ”程序 中 输入 下 列 命令 : 


1. 单 击 master 虚拟 机 
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> 编辑 hostname 文件 
sudo gedit /etc/hostname 


输入 后 按 Enter 键 就 会 打开 hostname 文件 ， 屏 幕 显示 界面 如 图 5-41 所 示 。 


*hostname (/etc) - gedit 


*hostname x 


5-41 设置 master 主机 名 
编辑 完成 后 ， 先 保存 ， 再 关闭 gedit。 
人 4 设置 hdfs-sitexml 


hdfs-site.xml 用 于 设置 HDFS 分 布 式 文件 系统 相关 配置 的 设置 。 因为 master 现在 只 是 单纯 
的 NameNode， 所 以 请 删除 DataNode 的 HDFS 设置 ， 并 加 入 NameNode 的 HDFS 设置 。 在 
master 的 “终端 ”程序 中 输入 下 列 命令 : 


> 编辑 hdfs-site.xml 
sudo gedit /usr/local/hadoop/etc/hadoop/hdfs-site.xml 


输入 后 按 Enter 键 就 会 打开 hdfs-site.xml， 屏 幕 显 示 界 面 如 图 5-42 所 示 。 


“hdfs-site.xml /usr/local/hadoop/etc/hadoop) - gedit 


上 阳江 本 Pe 


*hdfs-site.xml x 


访 辑 (E) 查看 (V) 搜索 ( 具 (T) 文档 (D) 帮助 (H 


| 
Unless required by applicable law or agreed to in writing, software 
distributed under the License ts distributed on an "AS IS" BASIS, 
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or 

inplied. 
See the License for the specific language governing permissions and 
linitations under the License. See accompanying LICENSE file. 

-> 


<!-- Put site-specific property overrides in this file. --> 


<configuration> 

<property> 育 加 人 3 
<nane>df's.replication</nane> 设置 namenode HDFS 存储 目录 
<value>3</value> 


</property> 


FJ nane> 
usr/local/hadoop/hadoop_data/hdfs/nanenode</value> 


XML " 


制 表 符 宽度 : 8 ~ 行 29 , 列 1 插入 


图 5-42 设置 hdfs-site.xml 


编辑 完成 后 ， 先 保存 ， 再 关闭 gedit。 
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人 5 编辑 masters 文件 
masters 文件 主要 是 告诉 Hadoop 系统 哪 一 台 服 务 器 是 NameNode。 
在 master 的 “终端 ”程序 中 输入 下 列 命令 : 
> 编辑 master 文件 


sudo gedit /usr/local/hadoop/etc/hadoop/masters 


输入 后 按 Enter 键 就 会 打开 master， 屏 幕 显示 界 面 如 图 5-43 所 示 。 


hduser@master:~$ sudo gedit /usr/local/hadoop/etc/hadoop/masters 
[sudo] password for hduse 


*masters (/usr/local/hadoop/etc/hadoop. 
文件 (F) 编 


格 隐 #f ， 


5-43 ”编辑 master 文件 
编辑 完成 后 ， 先 保存 ， 再 关闭 gedit。 
C306 编辑 slaves 文件 


slaves 文件 主要 是 告诉 Hadoop 系统 哪些 服务 器 是 DataNode。 
在 master 的 “终端 ”程序 中 输入 下 列 命 令 : 


> 编辑 slaves 文件 


sudo gedit /usr/local/hadoop/etc/hadoop/slaves 


输入 后 按 Enter 键 就 会 打开 master， 屏 幕 显示 界面 如 图 5-44 所 示 。 


© *slaves /usr/local/hadoop/etc/hadoop) - gedit 


嵩 辑 (E) 查 # 工具 (D) 文档 (D) 帮助 (H) 


data3 设置 datal 、data2、data3 


图 5-44 编辑 slaves 文件 
编辑 完成 后 ， 先 保存 ， 再 关闭 gedit。 
人 7 重新 启动 master 虚拟 机 ( 见 图 5-45 ) 
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VM VirtualBox 
各 ”帮助 
Ubuntu 桌面 国 Wi 1o4s 雯 


器 


现 ser。 您 确定 关闭 所 有 程序 并 关机 吗 ? 


去 
= 
四 
- 
3 


图 5-45 重新 启动 


OJ08 重新 启动 后 确认 master 虚拟 机 是 否 设 置 正确 ( 见 图 5-46 ) 
重新 启动 后 ， 请 在 master 终端 机 输入 下 列 指令 : 
> 查看 网 络 设置 


ifconfig 


运行 后 如 图 5-46 所 示 , 可 以 看 到 提示 符号 已 经 改 成 hduser@master:~$, 代表 hostname 已 
改 为 master，IP 也 已 改 为 192.168.56.100。 


hduser@master: ~ 


9 
encap:Ethernet Hwaddr 08:00:27:d5:be:el 

inet addr:19.0.2.15 Bcast:10.0.2.255 Mask:255.255.255.0 
tnet6 addr: fe80::a00:27ff:fed5:bee1/64 Scope:Link 

UP BROADCAST RUNNING MULTICAST MTU:1560 Metric:1 

RX packets:27 errors:9 dropped:© overruns:6 frame:9 

TX packets:62 errors:6 dropped:6 overruns:6 carrier: 
collisions:® txqueuelen:1900 

RX bytes:3621 (3.6 KB) TX bytes:8805 (8.8 KB) 


lethi Link encap & 机 
inet addr 2. IP: 192.168.56.100 
tnet6 addr 2c8e/64 Scope 


UP BROADCA MTU:1566 Metric 
RX packets:9 errors:9 dropped:9 overruns:0 frane: 
TX packets:36 errors:6 dropped:6 overruns:6 carrier:e 
collisions:0 txqueuelen:1000 

RX bytes:9 (6.6 B) TX bytes:6310 (6.3 KB) 


1. hostname: master 


图 5-46 查看 master 网 络 设置 
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master 连接 到 data1、data2、data3 
创建 HDFS 目录 


之 前 的 步骤 我 们 已 经 创建 了 master 与 datal、data2、data3 服务 器 。 接 下 来 , 创建 NameNode 
(master) 的 SSH 连接 到 DataNode (datal 、data2 、data3 ) ， 并 创建 HDFS 相关 目录 。 


人 1) 启动 master、datal 、data2、data3 


首先 ， 必 须要 启动 所 有 虚拟 服务 器 master、datal 、data2 、data3， 如 图 5-47 所 示 。 


前 Oracle VM VirtualBox 管理 器 
i Eid li 


最 本 | sarapua | CE 
国 Se . 


驴 , 二 
Cn sb 


图 5-47 启动 所 有 虚拟 服务 器 


切换 到 master 虚拟 机 之 后 启动 “终端 ?程序 .我们 将 以 master“ 终 端 ” 程序 通过 SSH 连 
接 到 datal 服务 器 。 


人 02 连接 到 datal 虚拟 机 
在 master 的 “终端 ” 程序 中 输入 下 列 命令 : 


> master 通过 SSH 连接 到 data1 虚拟 机 
ssh datal 


如 图 5-48 所 示 ， 输 入 命令 后 按 Enter 键 ， 就 会 连接 到 datal 。 
请 注意 ! 提示 符 原 本 是 hduser@master:~$， 连 接 到 datal 之 后 变 成 了 hduser@datal:~$， 代 
表 已 经 成 功 连接 datal。 
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hduser@datal: ~ 本 是 hduser@master:~$ 
[Ihduser@naster:-s| ssh datal 


e authenETcTEY of host 'datal (192.168.56.101)' can't be established. 
ECDSA key fingerprint is e0:82:db:8c:Qe:cd:ec:4a:84:46:bf:51:a3:63-d27 


2. 输入 yes 
Are you sure you want to continue connecting (yes/no)? 


IWarning: Permanently added 'datal,192.168.56.161' (ECDSA) to the list of known 


losts. 
Welcome to Ubuntu 14.64.4 LTS (GNU/Linux 4.2.0-27-generic x86_64) 


* Documentation: https://help.ubuntu.com/ 


103 packages can be updated. 3. 连接 到 datal 之 后 , 变 成 了 
79 updates are security upda 


hduseredatal:-S 目 


hduser@datal:~$ 


图 5-48 ”连接 到 datal 虚拟 机 
03 连接 到 datal 创建 HDFS 相关 目录 


登录 datal 后 ， 我 们 将 在 datal 创建 HDFS 相关 目录 。 
在 master 的 “终端 ”程序 中 输入 下 列 命 令 : 


> 删除 HDFS 所 有 目录 
sudo rm -rf /usr/local/hadoop/hadoop data/hdfs 


> 创建 DataNode 存储 目录 
mkdir -p /usr/local/hadoop/hadoop_data/hdfs/datanode 


> 将 目录 的 所 有 者 更 改 为 hduser 


sudo chown -R hduser:hduser /usr/local/hadoop 


完成 后 ， 屏 幕 显示 界面 如 图 5-49 所 示 。 


hduser@datal1: ~ 
hduseredatal:-~-5 sudo rm -rf /usr/local/hadoop/hadoop_data/hdfs 


[sudo] password for hduser: 
hduser@datal:~$ mkdir -p /usr/local/hadoop/hadoop_data/hdfs/datanode 
hduser@datal:~$ sudo chown -R hduser:hduser /usr/local/hadoop 


图 5-49 创建 HDFS 相关 目录 
人 4 中 断 datal 连接 ， 回 到 master 


完成 后 ， 在 master 的 “终端 ”中 输入 下 列 命令 : 
> 中断 data1 连接 ， 回 到 master 


exit 


如 图 5-50 所 示 ， 运 行 exit 之 后 ， 原 本 提示 符 是 hduser@datal:~$， 中 断 datal 连接 后 恢复 
成 hduser@master:~$， 代 表 连 接 中 断 回 到 master 虚拟 机 。 
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hduser@master: ~ i 提示 符 原 本 1 hduser@datal:~$ 


en exit 


和 . 中 断 datal 连接 之 后 , 变 成 
- 
了 hduser@master:~$ 


图 5-30 回 到 master 


05 master SSH 连接 到 data2 并 创建 HDFS 目录 


接 下 来 ， 参 照 上 一 小 节 相 同 的 做 法 ， 使 用 下 列 命令 让 master 通过 SSH 连接 到 data2 虚拟 
机 ， 并 且 在 data2 虚拟 机 创建 HDFS 目录 。 
在 master“ 终 端 ”程序 中 输入 下 列 命令 : 
> master 通过 SSH 连接 到 data2 虚拟 机 
ssh data2 


> 删除 HDFS 所 有 目录 
sudo rm -rf /usr/local/hadoop/hadoopP_data/hdfs 


> 创建 DataNode 存储 目录 
mkdir -p /usr/local/hadoop/hadoop_data/hdfs/datanode 


> 将 目录 的 所 有 者 更 改 为 hduser 


sudo chown -R hduser:hduser /usr/local/hadoop 


> 中断 data2 连接 ， 回 到 master 
exit 


完成 后 屏幕 显示 界面 如 图 5-51 所 示 。 


hduser@master: ~ 


hduser@master:~$| ssh data2 
Welcome to Ubuntu IT4.64.4 i 4.2.6 -generic x86_64) 


* Documentation: https://heLp.ubuntu.com/ 
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79 updates are security updates. 


Last login: Mon May 16 14:29:33 2616 from master 


hduser@data2: ee 
注销 


Connection to data2 closed. 
hduserGmaster:-S 目 


图 5-51 master SSH 连接 到 data2 并 创建 HDFS 目录 
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人 6 master SSH 连接 到 data3 并 创建 HDFS 目录 


参照 相同 的 方法 ,我 们 使 用 下 列 命令 让 master 通过 SSH 连接 到 data3 虚拟 机 ,并 且 在 data3 
虚拟 机 创建 HDFS 目录 。 
在 master 的 “终端 ”程序 中 输入 下 列 命令 : 


> master 通过 SSH 连接 到 data3 虚拟 机 
ssh data3 


> ”删除 HDFS 所 有 目录 
sudo rm -rf /usr/local/hadoop/hadoop data/hdfs 


> 创建 DataNode 存储 目录 
mkdir -P /usr/local/hadoop/hadoop data/hdfs/datanode 


> 将 目录 的 所 有 者 更 改 为 hduser 


sudo chown -R hduser:hduser /usr/local/hadoop 


> 中断 data3 连接 ， 回 到 master 
exit 
完成 后 屏幕 显示 界面 如 图 5-52 所 示 。 


© 


hduser@master: ~ 
:~9 ssh data3 
Welcome to UbuntU 4 -本 


GNU/Linux 4.2.0-27-generic x86_64 


2. 创建 HDFS 相关 目录 


4:30; 916 from ma 
-rf /usr/local/hadoop/hadoop_data/hdfs 
for hduse 


* Documentation: https://heLp.ubuntu.com/ 
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79 updates are security updates. 


ta/hdfs/datanode 


local/hadoop/hadoop_: 


Connection to data3 closed. 
hduser@master:~$ 


图 5-52 ”master SSH 连接 到 data3 并 创建 HDFS 目录 


创建 并 格式 化 NameNode HDFS 目录 


人 01 重新 创建 NameNode HDFS 目录 
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在 master 的 “终端 ”程序 中 输入 下 列 命令 ， 创 建 NameNode HDFS 目录 : 


> ”删除 之 前 的 HDFS 目录 
sudo rm -rf /usr/local/hadoop/hadoop data/hdfs 


> 创建 NameNode 目录 
mkdir -p /usr/local/hadoop/hadoop data/hdfs/namenode 


> ”将 目录 的 所 有 者 更 改 为 hduser 


sudo chown -R hduser:hduser /usr/local/hadoop 


在 master 虚拟 机 的 “终端 ”程序 中 输入 如 图 5-53 所 示 的 命令 。 


hduser@naster:~$ sudo rm -rr /usr/Local/hadoop/hadoop_data/hdrs 
hduser@naster: -5$ mkdir -p /usr/local/hadoop/hadoop_data/hdfs/nanenode 


hduser@master:~$ sudo chown -R hduser:hduser /usr/Local/hadoop 
hduser@master:~$ 


5-53 ”输入 命令 
人 2 格式 化 NameNode HDFS 目录 


之 前 我 们 已 经 创建 了 DataNode 与 NameNode 的 HDFS 目录 ， 接 下 来 ， 需 要 格式 化 HDFS 
目录 。 在 master 的 “终端 ”程序 中 输入 下 列 命令 : 


> 格式 化 NameNode HDFS 目录 


hadoop namenode -format 


格式 化 时 屏幕 显示 界面 如 图 5-54 所 示 。 


|hduserenaster:-$ hadoop nanenode -format 
[DEpRECATED: Use of this script to execute hdfs connand is deprecated. 
Iinstead use the hdfs command for tt. 


15/94/29 11:07:93 INFO namenode.NameNode: STARTUP_MSG: 
[TOT 

|sraRrup_nsc: starting NameNode 

|sraRruP nsG: host = master/192.168.9.100 

|sraRruP nsc: args = [-fornat] 

|sraRruP_nsc: version = 2.6.0 

|sraRrup_nsc: classpath = /usr/local/hadoop/etc/hadoop:/usr/local/hadoop/share/ 
Ihadoop/conmon/Uib/log4j-1.2.17.jar:/usr/local/hadoop/share/hadoop/connon/ Uib/ja 
kson-xc-1.9.13.1ar:/usr/local/hadoop/share/hadoop/connon/LLb/paranamer -2.3.1ar: 
lusr/Llocal/hadoop/share/hadoop/cormon/Uib/zookeeper -3.4.6.jar: /usr/local/hadoop/s| 
hare/hadoop/connon/\ib/jackson-core-asl-1.9.13.jar: /usr/local/hadoop/share/hadoo| 
|p/connon/\ib/jettison-1.1.jar: /usr/\ocal/hadoop/share/hadoop/connon/Lib/httpcore| 
-4.2.5.jar:/usr/Local/hadoop/share/hadoop/common/ Lib/jasper-conpiler-5.5.23.jar: 
/usr /Local/hadoop/share/hadoop/common/ Lib/protobur -java-2.5.9.1ar:/usr/Local/had 
[eop/share/hadoop/connon/ttb/ Jasper -runtine-5.5-23 jar:/usr/Local/hadoop/share/hal 
oop/ connon/Uib/curator-franework-2.6.0.jar:/usr/Local/hadoop/share/hadoop/commo| 
[n/tib/xz j 


ar:/usr/tocaL/hadoop/shareJhadoop/connon/tib/java-xmUbuttder-6.4 


5-54 格式 化 NameNode HDFS 目录 
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眶 到 启动 Hadoop Multi Node Cluster 


人 1) 启动 Hadoop Multi Node Cluster 


到 目前 为 止 我 们 已 经 完成 Hadoop cluster 的 构建 , 可 以 在 master 的 “ 终 
列 命令 开始 操作 : 


> 分 别 启动 HDFS 与 YARN 


”程序 中 输入 下 


命令 说 明 


启动 HDFS 


start-YARN.sh 启动 Hadoop MapReduce 框架 YARN 


或 
> 同时 启动 HDFS 与 YARN 


命令 说 明 


同时 启动 HDFS 与 YARN 


如 图 5-55 所 示 。 


er er 


duser@master:~$ start-all.sh 
his script is Deprecated. Instead use start-dfs.sh and start-yarn.sh 


wp 
he authenticity of host 'master (192.168.56.100)' can' 1. 第 1 次 执行 会 询 
CDSA key fingerprint ts 67:060:38:8d:57:5e:64:58:d5:6a:9 -637 
Are you sure you want to continue connecting (yes/no)?| yes| 问 ， 请 输入 yes 


: starting namenode, logging to /usr/local/hadoop/logs/hadoop-hduser-name, 
pde-master .out 
Hata3: starting datanode, logging to /usr/LocaL/hadoop/Logs/hadoop-hduser-datana 
He-data3.out 
Natal: starting datanode, logging to /usr/LocaL/hadoop/Logs/hadoop-hduser-datana 


Hata2: starting datanode, logging to /usr/LocaL/hadoop/Logs/hadoop-hduser-datana 
He-data2.out 

Starting secondary namenodes [6.6.6.6] 
.0.0.0: starting secondarynamenode, logging to /usr/local/hadoop/logs/hadoop-hd 
ser-secondarynamenode-master .out 
Etarting yarn daemons 
Etarting resourcemanager, logging to /usr/local/hadoop/logs/yarn-hduser-resource 
lanager -master .out 

Hata2: starting nodemanager, logging to /usr/local/hadoop/logs/yarn-hduser-noder 
Bnager -data2.out 

Hata3: starting nodemanager, logging to /usr/local/hadoop/logs/yarn-hduser-noder 
Banager -data3.out 

Natal: starting nodemanager, logging to /usr/local/hadoop/logs/yarn-hduser-noder 
Bnager-datal.out 
duser@master:~$ 目 


图 5-55 启动 Hadoop Multi Node Cluster 
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人 2) 查看 master ( NameNode ) 进程 (process ) 


jps 《Java Virtual Machine Process Status Tool) 可 以 用 于 查看 当前 所 运行 的 进程 ， 在 master 
的 “终端 ”程序 中 输入 下 列 命令 : 


> 查看 master (NameNode ) 的 进程 (process ) 是 否 启动 
jps 
运行 后 屏幕 显示 界面 如 图 5-56 所 示 ， 可 以 看 见 master 服务 器 的 状态 。 


HDFS 功能 : NameNode、SecondaryNameNode 已 经 启动 。 
MapReduce2 (YARN ) : ResourceManager 已 经 启动 。 


hduser@master: ~ 


la646 Ee 
I4350 ResourceManager ay hh bh 
998 NaneNode 查看 启动 的 进程 


4185 SecondaryNameNode 


图 5-56 查看 启动 的 进程 


人 3 查看 datal ( DataNode ) 进程 
在 master 的 “终端 ”程序 中 输入 下 列 命令 ， 通 过 SSH 连接 到 datal 来 查看 datal 
(DataNode) 进程 。 

> master 通过 SSH 连接 到 data1 虚拟 机 
ssh datal 

> 查看 data1 ( DataNode ) 所 运行 的 进程 
jps 

> 注销 data1 回 到 master 
exit 

运行 后 屏幕 显示 界面 如 图 5-57 所 示 ， 从 中 可 以 看 见 datal 服务 器 的 状态 。 


@ HDFS 功能 : DataNode 已 经 启动 。 
@ MapReduce2 (YARN ) : NodeManager 已 经 启动 。 
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merwernne 
NU/Linux 3.16.0-23-generic x86_64) 


1. 连接 到 datal 虚拟 机 


duser@master :~$ 
elcome to Ubuntu 


ssh datal 


* Documentation: 


https://help.ubuntu.con/ 


ast login: Sun Jun 28 16:28:17 2615 from master 


区 > 查看 启动 的 进程 “| 
3. 注销 datal 回 到 master 


5.57 查看 datal 进程 
也 可 以 使 用 相同 方式 连接 到 data2、data3 进程 。 


373 No Manmader 
656 Jps 
240 ate 


onnection to datal closed. 
aster:=S 


打开 Hadoop ResourceManager 
Web 界面 


Hadoop ResourceManager Web 界面 可 用 于 查看 当前 Hadoop 的 状态 : Node 节点 、 应 用 程 
序 、 进 程 运行 情况 。 


全 Jo01 打开 ResourceManager Web 界面 


打开 浏览 器 网 址 栏 输入 : 


> ResourceManager Web 界面 网 址 
http://master:8088/ 


参照 下 列 步骤 ， 就 可 以 看 到 如 图 5-58 所 示 的 屏幕 显示 界面 。 


homngombergennes 


图 5-58 ”打开 Resource Manager Web 界面 
人 查看 已 经 运行 的 节点 Nodes 


当 单 击 Nodes 时 ， 会 显示 当前 的 节点 。 当 前 共有 3 个 节点 Nodes: datal、data2、data3， 
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如 图 5-59 所 示 〈 单 击 Nodes 时 ， 有 时 没有 出 现 节点 ， 刷 新 几 次 就 会 出 现 )。 


Nodes of the cluster - Mouilla Firefox 


Nodes of the cluster 


€ master 


Apps Apps Containers/u| 
completed Running 


Last health- 
29- 四 月 -2015 
110830 


Health-report 


Seheduler 


Jtefault rack RUNNING data2:59493 -data2:8042 29- 四 月 -2015 

ra 110824 

/tefault-rack RUNNING data3:59032 ”由 Da8042 29- 四 月 -2015 
110831 


Showing 1 9 3 ol3 entrles 


5-59 ”查看 已 经 运行 的 节点 


打开 NameNode Web 界面 


HDFS Web 界面 可 用 于 检查 当前 的 HDFS 与 DataNode 运行 情况 。 
个 DJo1 打开 NameNode HDFS Web 用 户 界面 
打开 浏览 器 在 网 址 栏 输入 : 


> HDFS Web 用 户 界面 网 址 
http://master:50070/ 


可 以 看 到 屏幕 显示 界面 如 图 5-60 所 示 。 


RE 2. 在 网 址 栏 中 输入 http://master:50070/ 


DFS Remalning%: S964% 


on BFS Used: 


rs Remalning: 


DFs Usedw: 
ock Pool Use 


Block Pool Used%: 


DataNodes usages% (Min/Medlan/Max/stdDev}: 


Number of Under-Replicated Blocks o e Nodes 共计 3 个 Live 节点 
Number of alocks Pending Deletion o 


lock Deleuon start Time 201SM/29 上 114053 


mG kl 


三 


NI 一 AI 上 
@ Freror automaticaly sendssomedatato Me 


0 说 加 


er Choose Whatl share x 


图 5-60 输入 网 址 
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人 02 查看 Datanode 


单 击 Datanodes， 可 以 看 到 当前 启动 了 3 个 节点 Datanodes， 如 图 5-61 所 示 。 


图 5-61 查看 Datanode 


停止 Hadoop Multi Node Cluster 


在 master “终端 ”程序 中 输入 下 列 命令 : 


> 停止 Hadoop Multi Node Cluster ( 见 图 5-62 ) 
stop-all.sh 


hduser@master: ~ 


hduser@master:~$ stop-all.sh 

This script is Deprecated. Instead use stop-dfs.sh and stop-yarn.sh 
stopping namenodes on [master] 

Imaster: stopping namenode 

data2: stopping datanode 

datal: stopping datanode 

data3: stopping datanode 

stopping secondary namenodes [6.6.6.6] 
|e.6.6.6: stopping secondarynamenode 
stopping yarn daemons 

stopping resourcemanager 

data2: stopping nodemanager 

data3: stopping nodemanager 

datal: stopping nodemanager 

no_ proxyserver to stop 


图 5-62 停止 Hadoop Nulti Node Cluster 


结论 


本 章 我 们 介绍 了 如 何 建立 Hadoop Multi Node Cluster。 通 过 安装 设置 过 程 ， 相 信 读 者 已 经 
对 Hadoop 有 了 基本 的 概念 。 下 一 章 ， 我 们 将 介绍 Hadoop HDFS 分 布 式 存储 。 


116 


第 0 章 
Hadoop HDFS 命 洱 


在 第 1 章 中 我 们 介绍 了 HDFS 的 概念 , 在 本 章 中 我 们 将 介 
绍 可 以 在 “终端 ”程序 中 使 用 的 HDFS 命令 ,对 HDFS 进行 操 
作 ， 以 及 Hadoop HDFS Web 接口 。 


寿 ;， Python+Spark 2.0+Hadoop 机 器 学 习 与 大 数据 实战 


利用 终端 HDFS 命令 对 HDFS 进行 操作 的 示意 图 如 图 6-1 所 示 。 


Hadoop HDFS 


HDFS 命令 


> (分 太 式 文件 系统 


图 6-1 利用 HDFS 命令 对 HDFS 进行 操作 
HDFS 命令 格式 如 下 : 


Hadoop fs -命令 


> 本章 介 绍 一 些 常 用 的 HDFS 命令 ( 见 表 6-1) 
本 章 所 有 命令 ， 我 们 都 在 master 虚拟 机 的 “终端 ”程序 中 运行 。 
表 6-1 常用 的 HDFS 命令 
命令 说 明 

创建 HDFS 目录 
列 出 HDFS 目录 
使 用 -copyFromLocal 复制 本 地 (local) 文件 到 HDFS 
使 用 -put 复制 本 地 (local) 文件 到 HDFS 


列 出 HDFS 目录 下 的 文件 内 容 
使 用 -copyToLocal 将 HDFS 上 的 文件 复制 到 本 地 (local) 
使 用 -get 将 HDFS 上 的 文件 复制 到 本 地 《local) 


复制 HDFS 文 件 


删除 HDFS 文件 


> HDFS 命令 整理 


常用 的 HDFS 命令 已 被 整理 在 本 书 的 博客 文章 中 。 当 练习 安装 时 ， 可 以 复制 博客 文章 中 
的 命令 ， 然 后 粘贴 到 “终端 ”程序 中 。 这 样 既 可 节省 打字 的 时 间 ， 也 不 用 担心 打 错 字 〈 无 法 在 
VirtualBox 虚拟 机 的 Ubuntu“ 终 端 ” 程 序 中 执行 复制 /粘贴 操作 时 , 参考 第 3.9 节 的 说 明 , 设置 
好 VirtualBox 的 共享 剪贴 板 )。 本 书 的 博客 网 址 为 : 


http://blog.sina.com.cn/hadoopsparkbook 


启动 Hadoop Multi-Node Cluster 


在 示范 HDFS 命令 之 前 ， 我 们 必须 先 启动 Hadoop Multi-Node Cluster。 
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01 启动 所 有 虚拟 服务 器 
首先 必须 要 启动 所 有 虚拟 服务 器 master、datal 、data2 、data3 ， 如 图 6-2 所 示 。 


二 Oracle VM VirtualBox 管 理 器 = 
管理 控制 (M) 帮助 (H) 


汶 深水 售 二 出 oj 回音 份 菊 纺 四 ]6) 


新 建 0) 说 置信 再 导 亚 下 (H) 


= | 
na 
操作 系统 。 Ubuntu (54-bit) 
国 休 统 


硬盘 
硬件 加 速 、YT-wAMD-Y, 谋 泰 分 页 , KYM 丰 虚 拟 化 


| 
隔 data2 内 存 大 小 :4096 MB | 
呈正 让 运行 县 动 顺序 。 软驱 , 光 开 ， | 


data3 
谷 正在 运行 
县 示 
显存 大 小 12MB 
远程 壶 面 服务 器 ， 已 森 用 启动 所 有 
录像 已 区 用 
存储 | 
控制 器 :IDE 
第 一 [DE 控制 器 主 通 润 。 [光驱 1 VBoxGwestAdditionsi (55 45 MB) ed | 


6-2 ”启动 所 有 虚拟 服务 器 


人 2 进入 master 虚拟 机 ， 启 动 Hadoop Multi-Node Cluster 
在 master 虚拟 机 启动 “终端 ” 程序 ， 输 入 下 列 命令 : 


> 启动 Hadoop Multi-Node Cluster 
start-all.sh 


运行 后 屏幕 显示 界面 如 图 6-3 所 示 。 


hduser@master:~$ start-all.sh 
This script ts Deprecated. Instead use start-dfs.sh and start-yarn.sh 

starting namenodes on [master] 

Inaster: starting nanenode, logging to /usr/local/hadoop/logs/hadoop-hduser-name 
lode-master .out 

datal: starting datanode, Logging to /usr/local/hadoop/logs/hadoop-hduser-datand| 
Ide-datal.out 

ldataz: starting datanode, logging to /usr/local/hadoop/logs/hadoop-hduser-datand| 


: starting datanode, logging to /usr/tocat/hadoop/Logs/hadoop-hduser-datand 
Ide-data3.out 
starting secondary namenodes [6.6.6.6] 
le.e.6.6: starting secondarynanenode, logging to /usr/local/hadoop/logs/hadoop-hd| 
user -secondarynamenode-master .out 
starting yarn daenons 
starting resourcemanager, logging to /usr/local/hadoop/logs/yarn-hduser-resource| 
Imanager -master .out 
|dataz: starting nodemanager, Logging to /usr/local/hadoop/logs/yarn-hduser-noder| 
anager -data2 .out 
data3: starting nodemanager, Logging to /usr/local/hadoop/logs/yarn-hduser-noder| 
anager-data3.out 
|datal: starting nodemanager, logging to /usr/local/hadoop/logs/yarn-hduser-noder| 
anager-datal.out 


图 6-3 启动 Hadoop Multi-Node Cluster 
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创建 与 查看 HDFS 目录 


人 ET 创建 HDFS 目录 
在 “终端 ”程序 中 输入 下 列 命令 ， 创 建 HDFS 目录 : 
> 创建 user 目录 


hadoop fs -mkdir /user 


> 在 user 目录 下 创建 hduser 子 目录 
hadoop fs -mkdir /user/hduser 


> 在 hduser 目录 下 创建 test 子 目录 
hadoop fs -mkdir /user/hduser/test 
运行 后 屏幕 显示 界面 如 图 6-4 所 示 。 


hduser@master: ~ 
hduser@master :~$ hadoop fs -mkdir /user 


hduser@master :~$ hadoop fs -mkdir /user/hduser 
hduser@master:~$ hadoop fs -mkdir /user/hduser/test 
hduser@maste, | | 


图 6-4 创建 HDFS 目录 
02 查看 用 户 HDFS 目录 
在 “终端 ”程序 中 输入 下 列 命令 : 


> 查看 之 前 创建 的 HDFS 目录 
hadoop fs -1s 


因为 当前 登录 的 用 户 是 hduser， 所 以 会 显示 /user/hduser 下 的 目录 ， 也 就 是 test 目录 ,如 图 
6-5 所 示 。 


hduser@master: ~ 


hduser@master:-$ hadoop fs -1s 
Found 1 itens 


图 6-5 查看 HDFS 目录 
全 B03 查看 HDFS 完整 目录 


在 “终端 ”程序 中 输入 下 列 命令 ,查看 之 前 创建 的 完整 HDFS 目录 。 因 为 hadoop fs -ls 只 
能 查看 一 级 目录 ， 所 以 必须 逐 级 查看 ， 如 下 列 范例 所 示 。 


> 查看 HDFS 根 目录 


hadoop fs -ls / 
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> 查看 HDFS 的 /user 目录 


hadoop fs -1s /user 


> 查看 HDFS 的 /user/hduser 目录 


hadoop fs -1s /user/hduser 


运行 后 屏幕 显示 界面 如 图 6-6 所 示 。 


hduser@master: ~ 
:~$ hadoop fs -1s / 


- hduser supergroup © 2615-65-68 069:51 /user 
hduser@master:~$ hadoop fs -ls /user 
Found 1 items 


drwxr -xr-x - hduser supergroup 


© 2615-95-68 69:51 /user/hduser 
hduser@master: 


~$ hadoop fs -ls /user/hduser 


- hduser supergroup 


9 2615-65-68 69:51 /user/hduser/test 


图 6-6， 逐 级 查看 目录 


人 4 查看 所 有 HDFS 子 目录 


HDFS 提供 了 一 个 方便 的 选项 ， 我 们 可 以 加 上 -R，R 代表 recursive (递归 ), 可 进行 如 下 操作 : 
> 一 次 查看 所 有 子 目 录 


hadoop fs -ls -R/ 


运行 后 屏幕 显示 界面 如 图 6-7 所 示 。 


一 次 列 出 所 有 HDFS 子 目录 
hduser@master: ~ 


hduser@master:~$ hadoop fs -ls -R/ 
drwxr-xr-x - hduser supergroup 


0 2015-05-08 69:51| /user 
drwxr-xr-x - hduser supergroup © 2615-65-68 69:51| /user/hduser 
drwxr-xr-x - hduser supergroup 0 2615-65-68 69:51| /user/hduser/test 
hduser@master:~$ 四 
图 6-7 一 次 查看 所 有 子 目录 
F105 一 次 创建 所 有 HDFS 子 目录 


当 我 们 创建 目录 时 ， 如 果 要 逐 级 地 创建 也 很 麻烦 ， 所 以 HDFS 提供 了 -p 选项 ， 可 以 帮助 
用 户 一 次 创建 多 级 目录 。 在 “终端 ”程序 中 输入 下 列 命令 : 


> 创建 多 级 HDFS 目录 


hadoop fs -mkdir -p /dirl/dir2/dir3 


> 查看 所 有 HDFS 子 目录 


hadoop fs -ls -R/ 


运行 后 屏幕 显示 界面 如 图 6-8 所 示 。 
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hduser@master: ~ 


hduser@master:~$ hadoop fs -mkdir -p /diri/gd 
hduser@master:~$ hadoop fs -ls -R / 
- hduser supergroup 2615-95-68 d 
- hduser supergroup 2615-95-68 :54|/dirl/dir2 


- hduser supergroup 2615-65-68 69:54|/dirl/dir2/dir3 

- hduser supergroup 2615-65-68 

- hduser supergroup 2615-65-68 :51 /user/hduser 

- hduser supergroup 2615-95-68 :51 /user/hduser/test 
hduser@master:~$ 目 


6-8 一 次 创建 多 层 目录 


从 本 地 计算 机 复制 文件 到 HDFS 


从 本 地 计算 机 复制 文件 到 HDFS 的 示意 图 如 图 6-9 所 示 。 


Hadoop HDFS 
分 布 式 文件 系统 


图 6-9 从 本 地 计算 机 复制 文件 到 HDFS 示意 图 


人 To1 复制 本 地 (local ) 文件 到 HDFS 
使 用 下 列 命令 复制 本 地 (local) 文件 到 HDFS: 
> ”复制 本 地 文件 到 HDFS 的 目录 


hadoop fs -copyFromLocal /usr/local/hadoop/README .txt /user/hduser/test 


> ”复制 本 地 文件 到 HDFS 的 目录 的 test1.txt 
Hadoop fs -copyFromLocal/usr/local/hadoop/README .txt /user/hduser/test/testl1.txt 


> 列 出 HDFS 目录 下 的 文件 
hadoop fs -1s /user/hduser/test 


运行 后 ， 屏 幕 显示 界面 如 图 6-10 所 示 。 


hduser@maste 
hduserenaste 
hduser@naste 
h 


2. 查看 已 经 复制 


3 hduser supergroup 1366 2615-65-68 11:49 /user/hduser/test/README.txt 
3 hduser supergroup 1366 2015-05-08 11;49 /user/hduser/test/test1.txt 


的 HDFS 文件 


图 6-10 复制 本 地 文件 到 HDFS 
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人 2 列 出 HDFS 目录 下 的 文件 
我 们 可 以 在 “终端 ”程序 中 输入 下 列 命令 : 
> 列 出 HDFS 目录 下 的 文件 内 容 

hadoop fs -cat /user/hduser/test/README .txt 
运行 后 ， 屏 幕 显示 界面 如 图 6-11 所 示 。 


hduser@master: ~ 


hduser@master:~$ hadoop fs -cat /user/hduser/test/README.txt 
Hadoop, please vist 


http://hadoop.apache.org/core/ 


and our wiki, at: 


http://wiki.apache.org/hadoop/ 


This distribution includes cryptographic software. The country in 
Iwhich you currently reside may have restrictions on the import, 
possession, use, and/or re-export to another country, of 

encryption software. BEFORE using any encryption software, please 
check your country's laws, regulations and policies concerning the 
import, possession, or use, and re-export of encryption software, to 
see if this is permitted. See <http://www.wassenaar .org/> for more 


图 6-11 列 出 HDFS 目录 下 的 文件 


不 过 ， 上 述 命 令 会 一 次 列 出 所 有 文件 内 容 。 如 果 文 件 太 大 ， 可 以 加 上 “| more”， 一 页 
页 地 显示 ， 命 令 如 下 : 


hadoop fs -cat /user/hduser/test/README .txt|more 


03 复制 重复 文件 到 HDFS 目录 


当 我 们 复制 本 地 文件 至 HDFS 目录 时 ， 如 果 文件 已 经 存在 ， 系 统 会 回复 “File exists”， 即 
文件 已 经 存在 ， 将 不 会 复制 。 


> 复制 本 地 文件 到 HDFS 的 目录 时 ， 文 件 已 经 存在 


hadoop fs -copyFromLocal /usr/local/hadoop/README .txt /user/hduser/test 


运行 后 屏幕 显示 界面 如 图 6-12 所 示 。 
复制 的 File exists 〈 文 件 已 经 存在 ) 


hduser@master: ~ 


hduser@master:~$ hadoop fs -copyFromLocal /usr/lo a README. txt /user/hduser/test 
copyFromLocal: “/user/hduser /test/README.txt’: 


图 6-12 复制 重复 文件 到 HDFS 目录 
E04 强制 复制 重复 文件 到 HDFS 目录 


如 果 文 件 已 经 存在 ， 此 时 可 以 加 入 -f 选 项 (f 是 forcee， 有 强制 的 意思 )， 命 令 如 下 : 
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> 强制 复制 文件 


hadoop fs -copyFromLocal -f /usr/local/hadoop/README .txt /user/hduser/test 


强制 复制 本 地 文件 /usr/local/hadoop/README.txt 到 HDFS 目录 /user/hduser/test。 
运行 后 屏幕 显示 界面 如 图 6-13 所 示 。 


hduser@master: ~ 


hduser@master:~$ hadoop fs -copyFromLocal -f /usr/local/hadoop/README.txt /user/hduser/test 
hduser@master 


6-13 ”强制 复制 文件 
05 复制 多 个 本 地 文件 到 HDFS 目录 


也 可 以 一 次 复制 多 个 本 地 文件 至 HDFS 目录 ， 命 令 如 下 : 


> 同时 复制 NOTICE.txt 与 LICENSE.txt 到 HDFS 目录 /user/hduser/test 


hadoop fs -copyFromLocal /usr/local/hadoop/NOTICE .txt 
/usr/local/hadoop/LICENSE.txt /user/hduser/test 


运行 后 的 屏幕 显示 界面 如 图 6-14 所 示 。 


一 已 复制 到 HDFS 的 文件 


hduser@master:~$ hadoop fs -copyFromLocal /usr/local/hadoop/NOTICE.txt /usr/local/hadoop/LICENSE. txt 
/user /hduser /test 


hduser@master:~$ hadoop fs -ls /user/hduser/test 


supergroup 15429 2615-65-68 12:62| /user/hduser/test/LICENSE. txt 
supergroup 161 2615-65-68 12:02 Sar /honr/ east/ MOTCE: tt 
3 hduser supergroup 1366 2615-65-68 11:51 JUSer/hduser/tes 


3 hduser g p 1366 2615-65-68 11:49 /user hi dt/ edt i 


图 6-14 复制 多 个 本 地 文件 到 HDFS 目录 


本 FT06 copyFromLocal 复制 目录 到 HDFS 目录 
也 可 以 从 本 地 计算 机 复制 整个 目录 到 HDFS 目录 ， 命 令 如 下 : 


> 复制 整个 本 地 计算 机 的 目录 /usr/local/hadoop/etc 到 HDFS 目录 /user/hduser/test 


hadoop fs -copyFromLocal /usr/local/hadoop/etc /user/hduser/test 


> 列 出 在 HDFS 目录 下 的 文件 


hadoop fs -ls /user/hduser/test 


运行 界面 如 图 6-15 所 示 。 
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已 经 复制 到 HDFS 的 etc 目录 


/user/hduser /test 


hduser@master: ~ 


hduser@master:~$ hadoop fs -copyFromLocal /usr/local/hadoop/etc 
hduser@master:~$ hadoop fs -ls /user/hduser/test 


-rw-r--r-- 3 hduser supergroup 15429 2615-65-68 12:12 /ser/hduser/test/LICENSE.txt 
-rw-r--r-- 3 hduser supergroup 161 2615-65-68 user/hduser/test/NOTICE.txt 
-rw-r--r-- 3 hduser supergroup 1366 2615-65-68 user/hduser/test/README .txt 
drwxr-xr-x  - hduser supergroup 0 2615-65-68 
-rw-r--r-- 3 hduser supergroup 1366 2615-65-68 12:11 /user/hduser/test/test1.txt 


图 6-15 复制 整个 目录 到 HDFS 目录 
TI07 查看 目录 下 所 有 的 文件 
之 前 的 命令 只 是 看 到 etc 目录 名 称 ， 还 可 以 使 用 下 列 命令 : 


> 列 出 HDFS 目录 /user/hduser/test/etc 下 的 所 有 文件 
hadoop fs -ls -R /user/hduser/test/etc 


以 上 命令 加 上 -R 选项 (-R 是 Recursive) 即 可 列 出 HDFS 目录 下 的 所 有 文件 , 包含 子 目录 。 
了 结果 的 屏幕 显示 界面 如 图 6-16 所 示 。 


- hduser supergroup 

hduser supergroup -65- /user/hduser/test/etc/hadoop/capacity-scheduler .xml 
hduser supergroup -65- /user/hduser/test/etc/hadoop/configuration.xsl 
hduser supergroup -65- /user/hduser/test/etc/hadoop/contatner-executor.cfg 
hduser supergroup -65- /user/hduser/test/etc/hadoop/core-stte.xmtL 

hduser supergroup -65- /user/hduser/test/etc/hadoop/core-stte.xmL- 

hduser supergroup -65- /user /hduser/test/etc/hadoop/hadoop-env. cmd 

hduser supergroup -65- /user/hduser/test/etc/hadoop/hadoop-env. sh 


hduser supergroup -65- /Juser/hduser/test/etc/hadoop/hadoop-env.sh- 
hduser supergroup -65- /user/hduser/test/etc/hadoop/hadoop-metrics.properties 
hduser supergroup -65- /user/hduser/test/etc/hadoop/hadoop-metrics2.properties 


hadoop/hadoo 


图 6-16 查看 目录 下 的 所 有 文件 
人 F083 使 用 put 复制 文件 到 HDFS 目录 


另外 ， 也 可 以 使 用 “-put” 选 项 复制 文件 到 HDFS 目录 。 使 用 “-put” 与 
“-copyFromLocal” 的 不 同 之 处 是 : 如果 文件 已 经 存在 ， 系 统 不 会 显示 文件 已 经 存在 ， 而 会 
直接 覆盖 ， 例 如 下 列 命令 : 


> 使 用 put 复制 文件 到 HDFS 目录 ， 会 直接 覆盖 文件 


hadoop fs -put /usr/local/hadoop/README .txt /user/hduser/test/test2.txt 


运行 后 屏幕 显示 界面 如 图 6-17 所 示 。 
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hduser@master: ~ 


hduser@master:~$ hadoop fs -put /usr/local/hadoop/README.txt /user/hduser/test/test2.txt 
hduser@master:~$ hadoop fs -ls /user/hduser/test 


hduser supergroup 15429 2615-65-68 12:12 /user/hduser/test/LICENSE.txt 
3 hduser supergroup 161 2615-65-68 12:12 /user/hduser/test/NOTICE.txt 


3 hduser supergroup 1366 2615-65-68 12:12 /user/hduser/test/README.t: 1 色香 3 

~ hduser supergroup 8 2615-65-68 12:19 /user/hduser/test/etc 已 经 复制 至 HDFS 
3 hduser supergroup 1366 2615-65-68 12:11 hduser/te est14 

3 hduser supergroup 1366 2615-65-698 12:28| /user/hduser/test/test2.txt 的 test2.txt 文件 


hduserenaster:-S 


图 6-17 使 用 put 复制 文件 
人 9 使 用 put 命令 接受 stdin ( 标准 输入 ) 


另外 一 个 使 用 -put 与 -copyFromLocal 的 不 同 处 是 : “-put” 可 以 接受 stdin (标准 输入 )， 
例如 下 列 命令 : 
> 将 原本 显示 在 屏幕 上 的 内 容 存 储 到 HDFS 文件 


echo abc | hadoop fs -put - /user/hduser/test/echoin.txt 


echo abc 原本 是 要 显示 在 屏幕 上 的 内 容 , 现在 通过 “|”(pipe 管道 ) 符 号 传递 给 hadoop 的 
命令 ， 并 且 存 储 到 HDFS 目录 下 的 文件 echoin.txt 中 。 


> 显示 在 HDFS 中 echoin.txt 文件 的 内 容 


hadoop fs -cat /user/hduser/test/echoin.txt 


运行 后 列 出 abc， 如 图 6-18 所 示 。 


hduser@master: ~ 


S echo abc | hadoop fs -put - /user/hduser/test/echoin.txt 
‘$ hadoop fs -cat /user/hduser/test/echoin.txt 


图 6-18 显示 文件 内 容 
人 IO 使 用 put 命令 将 本 地 目录 的 列表 存储 到 HDFS 文件 
> 将 本 地 目录 的 列表 存储 到 HDFS 文件 


ls /usr/local/hadoop | hadoop fs -put - /user/hduser/test/hadooplist.txt 


原本 ls /usr/local/hadoop 命令 会 把 本 地 目录 的 列表 列 在 屏幕 上 , 通过 “|” 符 号 (pipe 管道 ) 
传递 给 了 Hadoop 命令 ， 所 以 最 后 会 存储 到 HDFS 目录 下 的 hadooplist.txt 文件 中 。 


> 显示 HDFS 中 hadooplist.txt 文件 的 内 容 


hadoop fs -cat /user/hduser/test/hadooplist.txt 


运行 后 屏幕 显示 界面 如 图 6-19 所 示 。 


126 


第 6 章 Hadoop HDFS 命令 < 


hduser@master: — 


hduser@master:~$ 1s /usr/Local/hadoop | hadoop fs -put - /user/hduser/test/hadooplist.txt 
[hduseramaster:-s hadoop fs -cat /user/hduser/test/hadooplist.txt 


文件 内 容 是 之 前 1s /usr/local/hadoop 命 令 所 
产生 的 本 地 目录 列表 


图 6-19 将 本 地 目录 的 列表 存储 到 HDFS 


Hadoop HDFS 
分 布 式 文件 系统 


图 6-20 示意 图 
I01 将 HDFS 上 的 文件 复制 到 本 地 计算 机 (local ) 


在 “终端 ”程序 中 输入 下 列 命令 ， 将 HDFS 上 的 文件 复制 到 本 地 。 
> 在 本 地 计算 机 创建 test 测试 目录 


mkdir test 


> 切换 到 test 目录 
cd test 


> 将 HDFS 的 文件 复制 到 本 地 计算 机 


hadoop fs -copyToLocal /user/hduser/test/hadooplist.txt 


> 查看 本 地 目录 
5 


运行 后 的 屏幕 显示 界面 如 图 6-21 所 示 。 


127 


寿 ， Python+Spark 2.0+Hadoop 机 器 学 习 与 大 数据 实战 


hduser@master: ~/test 


hduser@master:~$ mkdir test 
hduser@master:~$ cd test 
hduser@master:~/test$ hadoop fs -copyToLocal /user/hduser/test/hadooplist.txt 


hduser@master:~/test$ 1L 本 
总 用 县 12 已 经 复制 到 本 地 计算 机 的 
drwxrwxr-x 2 hduser hduser 4696 5 月 8 26:63 ./ i 
drwxr-xr-x 25 hduser hduser 4696 5 月 8 26:63 .. hadooplist.txt 文件 


-rw-r--r-- 1 hduser hduser 96 5 月 8 20:63[hadooplist.txt |] | 
图 6-21 将 HDFS 上 的 文件 复制 到 本 地 计算 机 


人 2 将 HDFS 上 的 目录 复制 到 本 地 计算 机 


也 可 以 使 用 下 列 命令 : 
> 将 整个 HDFS 上 的 目录 复制 到 本 地 计算 机 


hadoop fs -copyToLocal /user/hduser/test/etc 


运行 后 屏幕 显示 界面 如 图 6-22 所 示 。 


hduser@master: ~/test 


hduser@master:~/test$ hadoop fs -copyToLocal /user/hduser/test/etc 
hduser@master:~/test$ LL 


hduser hduser 4696 8 26:67 ./ 已 经 复制 到 本 地 的 目录 etc 
25 hduser hduser 4696 8 20:03 . yA 
hduser hduser 4696 8 2 人 IE 
hduser hduser “96 8 260:63 hadooplist.txt 
图 6-22 将 HDFS 上 的 目录 复制 到 本 地 计算 机 
人 3 hadoop fs -get 复制 到 本 地 计算 机 ( local ) 


也 可 以 使 用 下 列 “-get” 命 令 : 
> 将 HDFS 上 的 文件 复制 到 本 地 计算 机 (local ) 


hadoop fs -get /user/hduser/test/RERDME .txt localREADME .七 xt 


运行 后 屏幕 显示 界面 如 图 6-23 所 示 。 


hduser@master ~/test 


hduser@master:~/test$ hadoop fs -get 
hduser@master:~/test$ 1L 
总 用 量 29 


/user/hduser/test/README.txt LocaLREADME .txt 


drwxrwxr-x 3 hduser hduser 4696 5 月 8 26:12 ./ 已 经 复制 到 本 地 的 目录 
drwxr-xr-x 25 hduser hduser 4696 5 月 8 20:63 / 

drwxrwxr-x 3 hduser hduser 4696 5 月 8 26: localREADME.txt 
-rw-r--r-- 1 hduser hduser 8 

-rw-r--r-- 1 hduser hduser 8 


图 6-23 使 用 “-get” 命 令 复 制 到 本 地 计算 机 
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复制 与 删除 HDFS 文件 


如 图 6-24 所 示 复 制 HDFS 文件 , 指 的 是 在 HDFS 中 复制 文件 或 目录 到 另 一 个 HDFS 目录 。 


Hadoop HDFS 分 布 式 文件 系统 


图 6-24 复制 HDFS 文件 的 示意 图 
To1 复制 HDFS 文件 
在 “终端 ”程序 中 输入 下 列 命令 ， 在 HDFS 中 复制 文件 或 目录 到 另 一 个 HDFS 目录 : 


> 在 HDFS 上 创建 测试 目录 /user/hadoop/testtemp 
hadoop fs -mkdir /user/hduser/test/temp 


> 复制 HDFS 文件 到 HDFS 测试 目录 
hadoop fs -cp /user/hduser/test/README.txt /user/hduser /test/temp 


复制 HDFS 文件 /user/hduser/test/README.txt 到 HDFS 测试 目录 /user/hadoop/test/temp。 


> 查看 HDFS 测试 目录 
hadoop fs -ls /user/hduser/test/temp 


运行 后 屏幕 显示 界面 如 图 6-25 所 示 。 


hduser@master: ~/test 
hduser@master:~/test$ hadoop fs -mkdir /user/hduser/test/temp 


hduser@master:~/test$ hadoop fs -cp /user/hduser/test/README.txt /user/hduser/test/temp 
hduser@master:~/test$ hadoop fs -ls /user/hduser/test/tenp 
Found 1 items 


3 hduser supergroup 1366 2615-65-68 26:59 /user/hduser/test/temp/README. txt 


pe 
hduser@master:~/test$ 目 


图 6-25 复制 HDFS 文件 
起 302 出 除 HDFS 文件 
在 “终端 ”程序 中 输入 下 列 命令 ， 删 除 HDFS 文件 : 
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> 先 查 看 准备 要 被 删除 的 文件 
hadoop fs -ls /user/hduser/test 


> 删除 HDFS 文件 
hadoop fs -rm /user/hduser/test/test2.txt 


运行 后 屏幕 显示 界面 如 图 6-26 所 示 。 


hduser@master: ~/test 


1. 要 删除 的 文件 


hduser@master:~/test$ hadoop fs -ls /user/hduser/test 
Found 16 items 
3 hduser supergroup 8 2615-65-68 r/hduser/test/- 
3 hduser supergroup 15429 2615-65-68 r/hduser/test/LICENSE. txt 
3 hduser supergroup 161 2615-695-68 r/hduser/test/NOTICE. txt 
3 hduser supergroup 1366 2615-65-68 r/hduser/test/README .txt 
3 hduser supergroup 4 2615-95-68 er/hduser/test/echoin.txt 
- hduser supergroup 0 2615-65-68 ser/hduser/test/etc 
3 hduser supergroup 96 2615-65-68 ser/hduser/test/hadoopList.txt 
- hduser supergroup 0 2615-65-68 0 
3 hduser supergroup 1366 2015-05-08 
3 hduser 1366 2615-65-68 
adoop Ce -rm /user/hduser/test/test2.txt 
IT ion: Deletion interval = © minul 


yUEraUtt Namenode trash cont tyv 
| 3. 删除 成 功 的 信息 2. 执行 删除 命令 


图 6-26 删除 HDFS 文件 


u 


03 开除 HDFS 目录 
在 “终端 ”程序 中 输入 下 列 命令 ， 删 除 HDFS 目录 : 
> 查看 准备 要 被 删除 的 HDFS 目录 


hadoop fs -ls /user/hduser/test 


> 删除 HDFS 目录 
hadoop fs -rm -R /user/hduser/test/etc 


运行 后 屏幕 显示 界面 如 图 6-27 所 示 。 


hduser@master: ~/test 
hduser@master:~/test$ hadoop fs -ls /user/hduser/test 
Found 9 items 
-rw-r--r hduser supergroup 8 26015-65-68 
-rw-r--r hduser supergroup 15429 2615-65-68 
-rw-r--r hduser supergroup 161 26015-65-68 
-rw-r--r hduser supergroup 1366 26015-65-68 
-rw-r--r-- hduser supergroup 4 26015-65-68 
drwxr-xr-x hduser supergroup 8 2615-65-68 
-rw-r--r-- hduser supergroup 96 2615-65-68 3 /ueser /esr/ neoop nts 
drwxr-xr-x hduser < 9_2915-9 2 P 2. 执行 删除 命令 
-rw-r--r-- supergroup 1366 2615-65-698_1: vser/hduser/test/test1. txtl 
hduser@master:~/test$ hadoop fs -rm -R tt 
15/95/98 21 19 INFO fs.TrashpolicyDefault: Namen interval = © minu 
tes, Emptier interval = 9 minutes. 
IB 3. 删 


人 


图 6-27 删除 HDFS 目录 
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66 在 Hadoop HDFS Web 用 户 界面 浏览 HDFS 


之 前 我 们 使 用 HDFS 命令 来 查看 HDFS 目录 。 除 此 之 外 , Hadoop 还 提供 了 更 方便 的 功能 ， 
可 以 在 Hadoop HDFS Web 用 户 界面 来 浏览 HDFS 目录 或 文件 ， 如 图 6-28 所 示 。 


浏览 HDFS 目录 


Hadoop HDFS 分 布 式 文件 系统 


浏览 器 


图 6-28 在 Hadoop HDFS Web 用 户 界面 浏览 HDFS 


人 To1 浏览 Hadoop HDFS Web 界面 查看 HDFS 


网 址 说 明 
http://master:50070 Hadoop HDFS Web 界面 网 址 


参照 如 图 6-29 所 示 的 步 又 操作 就 可 以 看 到 我 们 之 前 创建 的 HDFS 目录 与 文件 。 


3. 单 击 菜单 Utilities 一 


jp 2. 输入 http://master:50070 


Hadoop Oveview Datanodes snapshot ogress 


Browse the file system 


ogs 


Browse Directory 本 
着 4. 默认 进入 根 目录 
Permlsslon Owner Group Slze Repllcatlon Block Size Name 


dwar hduser supergroup 


5 和民 


Hadoop, 2014. 


6-29 浏览 Hadoop HDFS Web 界面 查看 HDFS 
G02 输入 完整 的 目录 路 径 来 查看 文件 
也 可 以 直接 输入 完整 的 目录 路 径 来 查看 文件 ， 如 图 6-30 所 示 。 
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© 
置 
加 
匡 
自 
回 


6-30 “输入 完整 的 目录 路 径 来 查看 文件 
人 03 查看 HDFS 文件 的 完整 信息 


单 击 文件 名 链接 后 ， 会 打开 File Information 对 话 框 显示 此 文件 的 信息 ， 如 图 6-31 所 示 。 


中 


File information - part-r-00000 


Block ID: 1073741974 
lock Pool 10: Bp.1453095143.192.168.0.100.1430279073242 


(Generation Stampr 1150 


Shae: 337639 


a 


图 6-31 查看 HDFS 文件 的 完整 信息 
人 4 下 载 HDFS 文件 


可 以 参照 图 6-32 所 示 的 步骤 来 下 载 HDFS 文件 。 
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©@ iretox sutomatically sends some data to Mozllaso that we canimprove your experience 
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File information - partr00000 


(05 打开 下 载 文件 


人 06 打开 文件 
因为 是 文本 文件 ， 


下 载 文件 后 可 以 查看 下 载 的 文件 ， 如 图 6-33 所 示 。 


图 6-32 下 载 HDFS 文件 


File information - part-r-00000 


单 击 下 载 的 文件 就 
会 打开 该 文件 


Block ID: 1073741974 
Block Pool 10: Bp-1453095143.192.168.0.100-1430279073242 


6-33 ”打开 下 载 文件 


所 以 默认 会 使 用 gedit 打开 文件 ， 屏 幕 显示 界面 如 图 6-34 所 示 。 
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缚 广 本， 制 表 行 宙 革 :8 ， 。。 责 1 行乞 1 字 


啉 加 前 回力 团 团 吧 回回 村 图; 


© Firefon outomatically sends some data to Morila so that we can improve your experience. hoose What Share x 


图 6-34 打开 文件 


结论 


本 章 介绍 了 Hadoop HDFS 分 布 式 存储 ， 并 且 在 实际 计算 机 上 操作 了 HDFS 常用 命令 ， 
这 些 命令 在 后 续 章 节 都 会 使 用 。 在 下 一 章 中 ， 我 们 将 介绍 Hadoop Map/ Reduce 分 布 式 计算 。 
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MapReduce 是 一 种 程序 开发 模式 , 可 以 使 用 大 量 服务 器 来 
并 行 处 理 。 MapReduce, 简单 地 说 , Map 就 是 分 配 工作 , Reduce 
就 是 将 工作 结果 汇总 整理 。 
@@ 首先 使 用 Map 将 待 处 理 的 数据 分 割 成 很 多 的 小 份 数据 ， 
由 每 台 服 务 器 分 别 运 行 。 
@ ”再 通过 Reduce 程序 进行 数据 合并 , 最 后 汇总 整理 出 结果 。 


本 章 将 以 WordCount.Java 作为 范例 来 介绍 MapReduce。 


寿 ;， Python+Spark 2.0+Hadoop 机 器 学 习 与 大 数据 实战 


A 简单 介绍 WordCount.java 


下 列 为 WordCount 范例 ， 要 计算 文件 中 每 一 个 英文 单词 出 现 的 次 数 ， 步 又 如 图 7-1 所 示 。 


1. Map: 将 原本 文字 转换 为 (KeyValue) ， 
其 中 Key 是 Word，Value 是 单词 出 现 次 数 


2. Shuffle: 将 相同 的 3. Reduce: 将 相同 
Key 排列 在 一 起 Key 的 Value 相 加 


Em - 
国 权 | | 项 
图 7-! 范例 程序 计算 英文 章 词 出 现 次 数 的 大 至 步骤 
本 章 将 以 WordCountjava 示范 Map Reduce 的 运行 方式 。 
> WordCount 开发 步 又 如 表 7-1 所 示 
本 章 所 有 命令 都 在 master 虚拟 机 的 “终端 ”程序 中 运行 。 


表 7-1 WordCount 开发 步骤 
顺序 ”开发 步骤 说 明 


EE 编辑 WordCountjava 使 用 gedit 编辑 WordCount.java 


编译 WordCountjava | 编译 、 打 包 WordCountjava 程序 


使 用 Hadoop 目录 下 的 LICENSE.txt 文件 作为 测试 文件 ， 并 上 传 文本 文 


创建 测试 文本 文件 件 至 HDFS 


| 4 | 运行 wordcountjava | 在 Hadoop 环境 运行 WordCount 
查看 运行 结果 运行 会 产生 输出 文件 并 存储 到 HDFS 中 ， 可 使 用 HDFS 命令 查看 


> 本 章 命令 整理 
本 章 命令 已 整理 在 本 书 的 博客 文章 中 。 当 练习 安装 时 ， 可 以 复制 博客 文章 中 的 命令 ,然后 
粘贴 到 “终端 ”程序 中 。 这 样 既 可 节省 打字 的 时 间 ， 也 不 用 担心 打 错字 (无 法 在 VirtualBox 
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虚拟 机 的 Ubuntu“ 终端 ”程序 中 执行 复制 /粘贴 操作 时 ,参考 第 3.9 节 的 说 明 , 设置 好 VirtualBox 
的 共享 剪贴 板 )。 本 书 博 客 的 网 址 为 : 


http://blog.sina.com.cn/hadoopsparkbook 
3 编辑 WordCount.java - 


在 此 我 们 使 用 最 简单 的 方式 (使 用 gedit) 编辑 WordCountjava。 
人 JI01 创建 wordcount 目录 
在 “终端 ”程序 中 输入 下 列 命令 ， 创 建 wordcount 测试 目录 : 


> 创建 wordcount 测试 目录 

mkdir -P >/wordcount/inptt 
> 切换 至 wordcount 测试 目录 

cd -wordcomt 


运行 后 屏幕 显示 界面 如 图 7-2 所 示 。 


hduser@master:~$ mkdir -p ~/wordcount/input 
hduser@master:~$ cd ~/wordcount 


hduser@master:~/wordcount$ 


图 7-2 创建 wordcount 目录 


人 2 复制 WordCount.java 程序 代码 
在 Hadoop 说 明文 件 中 就 具有 WordCountjava 的 程序 代码 , 在 浏览 器 输入 下 列 网 址 就 可 以 
看 到 原文 的 详细 说 明 与 源 代 码 。 后 续 操 作 我 们 可 以 复制 这 个 网 页 中 的 源 代码 〈 见 图 7-3): 
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Hadoop 2.7.2 - MapReduce Tutorial - Mozilla Firefox 


4 ApacheHadoop 27 


€)@ | had 


apache.org/docs/current/hado 


MAR CHANGES a 
Me Example: WordCount v1.0 


ci, Betore we iump Into the cetalls. Iets waik hrough an examole MapReduce apolicaton to qet a favor 
ore sofa 
ne Wordcountis a simple appicason thatcounts the number of occunences of each word in a gven in 
mep 
em This worts win a locat standalons. pseudo disybuied or lly-dstrbuted Hadoop installation (Sng! 
yr Code 
maven Nene 


Import java.lo.lOExcepton; 
Importjava.utLsttingTokenber 


mportorgapadhe.hadoop.conf confguraton; 也 
me prorat WordCount 源 代 f 
Import org,.apache.hadoop.io.intWritable: 


Import org.apache.hadoop.lo.Text: 

Import org.apache.hadoop.mapreduce Job; 

Import orBapache.hadoop.mapreduce.Mapper 
Importorgapache.hadoop.mapreduce.Reducer 

Import org.apache.hadoop.mapreduce.lb.nput FleInputformat; 
Import org. apache.hadoop.mapreduce.lb.output. fleOutputFormat: 


public class WordCount{ 


publc static class TokenlzerMapper 
extends Mapper<Object, Text, Text Intwritable>{ 


Pprivate fnal satatkc IntWriiable one - new Intwirieable(1); 
Pprhate Text word = new Tentg 


7-3 复制 WordCountjava 程序 代码 


Dl03 编辑 WordCountjava 


在 “终端 ”程序 中 输入 下 列 命令 : 


> 使 用 gedit 编辑 WordCount.java 


sudo gedit WordCount.Java 


按 Enter 键 之 后 就 会 打开 WordCount.java 空白 文件 ， 如 图 7-4 所 示 。 


*WordCount.java (~/wordcount) - gedit 


文件 (F) 编辑 (E) 查看 (V 


| .和 | 


3 *WordCountjava x 


图 7-4 编辑 WordCountjava 


Jo04 Import 相关 的 Lib 并 创建 WordCount 类 


首先 要 Import 相关 的 Lib 链接 库 ， 并 且 创 建 WordCount 类 class， 后 续 的 程序 都 是 引入 到 


WordCount 类 中 ， 如 图 7-5 所 示 。 
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java.io.IOException; 
java.util.StringTokenizer; 


org.apache.hadoop.conf .Configuration; 
org.apache.hadoop.fs.Path; 
org.apache.hadoop.io.Intwritable; 

org.apache.hadoop.io.Text; 的 Lib 链接 库 
org.apache.hadoop.mapreduce .Job; 
org.apache.hadoop.mapreduce .Mapper; 
org.apache.hadoop.mapreduce.Reducer; 
org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 


1. Import 相关 


class WordCount { 


图 7-5 Import 相关 的 Lib 并 创建 WordCount 类 
Jl05 创建 main function 


接 下 来 创建 main function 程序 。main function 是 程序 的 起 点 ,在 main function 中 ,主要 设 
置 map 与 reduce 类 ， 如 图 7-6 所 示 。 
public static void main(String[] args) throws Exception { 
Configuration conf = new Configuration();| 
Job job = Job.getInstance(conf, "word count"); 
job.setJjarByClass(WordCount.class); 
job.setMapperclass an 和 
job .setCombinerCLass(IntSumReducer.cLass); 
job.setoutputValueClass(IntWritable.class); 2. 设置 IntSumReducer 类 
FileInputFormat.addInputPath(job, new Path(args[6])); 
FileOutputFormat.setOutputPath(job, new Path(args[1])); 


job.setReducerClass[IntSumReducer .class)| 
System.exit(job.waitForCompletion(true) ? 9 : 1); 


job.setOutputKeyClass(Text.class); 


7-6 创建 main function 


D06 创建 TokenizerMapper 类 


在 TokenizerMapper 类 的 map 方法 中 , 先 创建 StringTokenizer, 然后 使 用 while (itrhasMoreTokens()) 
读 取 每 一 个 word 并 写 入 context.write(word, one)， 创 建 key/value (word, 1)， 如 图 7-7 所 示 。 


public static class TokenizerMapper 
extends Mapper<Object, Text, Text, Intwritable>{ 


private final static IntWritable one = new IntWritable(1); 
private Text word = new Text(); 


public void map(Object key, Text value, Context context 
) throws IOException, InterruptedException { 
StringTokenizer itr = new StringTokenizer(value.tostring()); 
while (itr.hasMoreTokens()) { 
word.set(itr.nextToken()); 
context.write(word, one); 


0 


图 7-7 创建 TokenizerMapper 类 
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人 07 创建 mtSumReducer 类 


在 IntSumReducer 类 的 reduce 方法 中 , 先 使 用 for (IntWritable val : values) 读 取 每 
并 使 用 sum += val.get() 求 和 ， 最 后 写 入 结果 ， 如 图 7-8 所 示 。 


public static class IntSumReducer 
extends Reducer<Text,IntWritable,Text,IntWritable> { 
private Intwritable result = new Intwritable(); 


public void reduce(Text key, Iterable<IntWritable> values, 
Context context 
) throws IOException, InterruptedException { 
int sum = 0; 
for (IntWritable val : values) { 
sum += val.get(); 


result.set(sum); 
context.write(key, result);| 


图 7-8 创建 mtSumReducer 类 
人 8 编辑 完成 的 wordCount.java 
编辑 完成 后 ， 先 单 击 “ 保 存 ” 按 钮 再 单 击 “关闭 ”按钮 ， 如 图 7-9 所 示 。 


WordCount.java (~/wordcount) - gedit 


3 WordCountjava x 


import java.io.I0Exception; 
java.util.stringTokenizer; 


org.apache.hadoop.conf .Configuration; 
org.apache.hadoop.fs.Path; 
org.apache.hadoop.io.IntWritable; 
org.apache.hadoop.io. Text; 
org.apache.hadoop.mapreduce. Job; 


org.apache.hadoop.mapreduce.Mapper; 
org.apache.hadoop.mapreduce.Reducer; 
org.apachel.hadoop.mapreduce. lib.input.FileInputFormat; 
org.apache.hadoop.mapreduce. lib.output.FileOutputFormat; 
public class WordCount { 


public static class TokenizerMapper 
extends Mapper<Object, Text, Text, IntWritable>{ 


private final static IntWritable one = new IntWritable(1); 
private Text word = new Text(); 


Java * ” 制 表 符 宽度 : 8 * 
图 7-9 编辑 完成 后 保存 


D09 查看 编辑 完成 的 WordCountjava 
保存 后 ， 可 以 使 用 以 下 命令 : 


> 查看 之 前 编辑 完成 的 WordCount.java 
I 
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运行 后 ， 屏 幕 显示 界面 如 图 7-10 所 示 。 


hduser@master: ~/wordcount 
hduser@master:~/wordcount$ 1L 完成 
Hep 编辑 完成 的 
drwxrwxr-x 3 hduser hduser 46996 5 月 15 26:19 ./ WordCount.java 
drwxr-xr-x 21 hduser hduser 4696 5 月 15 19:34 ../ 
drwxrwxr-x 2 hduser hduser 4696 5 月 15 19:48, 

-frw-r--r-- 1 root root 2691 5 月 15 19:33[wordcount javs ] 


hduser@master:~/wordcount$ 


图 7-10 查看 WordCountjava 


编译 WordCount.java 


接 下 来 编译 WordCountjava， 只 是 需要 先 设置 环境 变量 。 
I01 修改 编译 所 需要 的 环境 变量 文件 
在 “终端 ”程序 中 输入 下 列 命令 : 


> 编辑 ~/.bashrc 
sudo gedit ~/.bashrc 


输入 后 按 Enter 键 就 会 打开 ~/.bashre， 如 图 7-11 所 示 。 


,bashrc x 
fi 


export JAVA_HOME=/usr/Lib/jvn/java-7-openjdk-amd64 
export HADOOP_HOME=/usr/local/hadoop 
export :SHADOOP_HOME/bin 
export PATH=SPATH:SHADOOP_HOME/sbtn 
export HADOOP_MAPRED_HOME=$HADOOP_HOME 
export HADOOP_COMMON_HOME=$HADOOP_HOME 
export HADOOP_HDFS_HOME=$HADOOP_HOME 
export YARN_HOME=SHADOOP_HOME 

export HADOOP_COMMON_HOME=SHADOOP_HONME 
export HADOOP_HDFS_HOME=$HADOOP_HOME 
export YARN_HOME=$HADOOP_HOME 

export HADOOP_CONMMON_LIB_NATIVE_DIR=SHADOOP_HOME/Litb/native 

|export HADooP_OPTS="-Djava.Ltbrary.path=SHADOOP_HOME/Ltb" 

export JAVA_LIBRARY_PATH=SHADOOP_HOME/Ltb/native:SJAVA_LIBRARY_PATH 


纯 文本 ” ” 制 表 符 突 度 : 8 ~ 行 17, 列 1 ”插入 
图 7-11 修改 环境 变量 文件 


上 述 命 令 说 明 如 下 : 
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> 设置 PATH 
export PATH=$ {JAVA HOME} /bin:${PATH} 


因为 我 们 后 续 要 使 用 的 命令 (例如 jar) 存在 于 /usr/lib/jjvm/java-7-openjdk-amd64/bin， 所 以 
将 ${JAVA_HOME}bin 加 入 PATH， 这 样 ， 切 换 到 其 他 目录 时 也 就 能 够 使 用 此 命令 了 。 


> 设置 HADOOP_CLASSPATH， 编 译 时 才 找 得 到 链接 库 
export HADOOP CLASSPATH=${JAVA HOME}/1lib/tools.jar 


本 B02 让 ~/.bashrec 修改 的 设置 值 生效 


当 我 们 修改 ~/.bashrc 之 后 , 可 以 先 从 系统 注销 再 重新 登录 , 该 设置 就 会 生效 ; 或 使 用 source 
命令 让 ~/bashrc 设置 立即 生效 。 
在 “终端 ”程序 中 输入 下 列 命令 : 


> 让 ~/.bashrc 设置 生效 


source ~/.bashrc 


屏幕 显示 界面 如 图 7-12 所 示 。 


hduser@hadoop: ~ 


hduser@hadoop: ~$ [source ~/.bashrc | | 让 ~/bashre 设 置 4 效 | | 
图 7-12 ”让 ~/.bashrc 修改 的 设置 值 生效 
703 开始 编译 
你 可 以 使 用 下 列 命令 进行 编译 ， 编 译 完成 后 ， 就 会 生成 wcjar 文件 。 
请 在 “终端 ”程序 中 输入 表 7-2 所 示 的 命令 。 
表 7-2 编译 命令 
Ex 说 明 


hadoop com.sun.tools.javac.Main WordCount.java 编译 WordCount 程序 


把 Wordcoum 类 打包 成 wejor 
| 


运行 结果 如 图 7-13 所 示 。 
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hduser@master ~/wordcount 


hduser@master:~/wordcount$ hadoop com.sun.tools.javac.Main WordCount.java 
wc-jar WordCount*.class 


hduseremaster: 
总 用 量 32 
drwxrwxr-x 
drwxr-xr-x 2 


~/wordcount$ 11 


3 hduser hduser 4696 
1 hduser hduser 4696 
2 hduser hduser 4696 
1 hduser hduser 3672 
1 hduser hduser 1561 
1 
1 
1 
r 


hduser hduser 1739 :36 WordCount$IntSumReducer .class 
root root 2691 5 月 15 19:33 MordCount.java 
hduser hduser 1736 5 月 15 19:36 WordCount$TokenizerMapper.class 


hduser@master:~/wordcount$ 四 


图 7-13 ”编译 结果 


jar 文件 (java ARchive) 是 一 种 压缩 文件 ， 包 含 Class 与 相关 资源 (文字 、 图 片 等 ) ， 之 
后 就 可 以 运行 wc.jar 这 个 程序 了 。 


创建 测试 文本 文件 


为 了 测试 WordCount 程序 ， 我 们 可 以 使 用 Hadoop 目录 下 的 LICENSE.txt 文件 。 
人 ON 复制 LICENSE.txt 


在 “终端 ”程序 中 输入 下 列 命令 ， 下 载 文本 文件 : 
> 切换 到 输入 目录 


cp /usr/local/hadoop/LICENSE.txt ~/wordcount/input 
11 ~/wordcount/input 


运行 结果 如 图 7-14 所 示 。 


hduser@master: ~ 


hduser@master:~$ cp /usr/local/hadoop/LICENSE.txt ~/wordcount/input 
hduser@master:~$ LL ~/wordcount/input 

总 用 量 544 

drwxrwxr-x 2 hduser hduser 4696 5 月 15 19:48 ./ 

drwxrwxr-x 3 hduser hduser 4696 5 月 15 19:36 ../ 

-rw-r--r-- 1 hduser hduser 15429 5 月 15 19:48 LICENSE.txt 


图 7-14 复制 LICENSE .txt 


302 启动 所 有 虚拟 服务 器 
首先 ， 


必须 要 启动 所 有 虚拟 服务 器 master、datal 、data2、data3， 如 图 7-15 所 示 。 
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章 Oracle VM VirtualBox 管理 器 
管理 (F) 控制 (M) 帮助 (H) 


当 儿 令 . 


晰 建 0) 设置 B) 汪 峡 ”局 动 (T) 


国 杂 统 


内 存 大 小 :4095 MB 
号 动 顺序 ， 软驱 , 光驱 , 硬 全 
硬件 加 束 : YT-wAMD-Y, 谋 泰 分 页 


7-15 启动 所 有 虚拟 服务 器 


ER3 进入 master 虚拟 机 ， 启动 Hadoop Multi-Node Cluster 
在 master 虚拟 机 启动 “终端 ”程序 ， 输 入 下 列 指令 : 


> 启动 Hadoop Multi-Node Cluster 
Start-all.sh 


运行 后 如 图 7-16 所 示 。 


hduser@naster:~$ start-all.sh 
This script ts Deprecated. Instead use start-dfs.sh and start-yarn.sh 
starting nanenodes on [master] 

master: starting nanenode, logging to /usr/local/hadoop/logs/hadoop-hduser-namen| 


de-data2.out 
data3: starting datanode, logging to /usr/local/hadoop/logs/hadoop-hduser-datand 
de-data3.0ut 

starting secondary namenodes [6.6.6.6] 
6.6.6.6: starting secondarynamenode, logging to /usr/LocaL/hadoop/Logs/hadoop-hd 
user -secondarynanenode-master .out 

starting yarn daemons 

starting resourcemanager, logging to /usr/local/hadoop/logs/yarn-hduser-resourcd 
Imanager -master .out 
data2: starting nodemanager, logging to /usr/Local/hadoop/logs/yarn-hduser-noder| 


datal: starting nodemanager, logging to /usr/Local/hadoop/Logs/yarn-hduser-noder| 
anager -datal.out 


图 7-16 启动 Hadoop Multi-Node Cluster 
FJ04 上 传 测试 文件 到 HDFS 目录 


接 下 来 ， 我 们 将 之 前 下 载 的 文本 文件 从 本 地 复制 到 HDFS。 
在 “终端 ”程序 中 输入 下 列 命 令 : 


> 在 HDFS 创建 目录 
hadoop fs -mkdir -p /user/hduser/wordcount/input 
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> 切换 到 ~/wordcount/input 数据 文件 目录 
cd ~/wordcount/input 


> 上 传 文本 文件 到 HDFS 
hadoop fs -copyFromLocal LICENSE.txt /user/hduser/wordcount/input 


> 列 出 HDFS 文件 


hadoop fs -1s /user/hduser/wordcount/input 


运行 的 结果 如 图 7-17 所 示 , 已 将 LICENSE.txt 上 传 到 HDFS 的 /user/hduser/wordcount/input 
目录 。 


hduser@master: ~/wordcount/input 


hduser@master:~$ hadoop fs -mkdir -p /user/hduser/wordcount/input 
hduser@master:~$ cd ~/wordcount/input 


hduser@master:~/wordcount/input$ hadoop fs -copyFromLocal LICENSE.txt /user/hdus| 
er/wordcount/input 

hduser@master:~/wordcount/input$ hadoop fs -ls /user/hduser/wordcount/input 
Found 2 items 

-rw-r--r-- 3 hduser supergroup 15429 2616-695-15 19:57 /user/hduser/wordco 
unt/input/LICENSE. txt 


图 7-17 上 传 测试 文件 到 HDFS 目录 


运行 WordCount.java 


在 “终端 ”程序 中 输入 下 列 命令 ， 运 行 WordCount 程序 : 


> 切换 目录 


cd ~/wordcount 


> 运行 WordCount 程序 


hadoop jar wc.jar WordCount /user/hduser/wordcount/input/LICENSE.txt /user/ 
hduser/wordcount/output 


运行 WordCount 程序 , 语句 格式 为 “hadoop jar wcjar [输入 文件 ] [输出 目录 ]”。 如 上 述 命 
令 所 示 ， 程 序 会 读 取 输入 文件 /user/hduser/wordcount/input/LICENSE.txt， 处 理 完成 后 将 结果 写 
入 /user/hduser/wordcount/output 目录 。 

运行 的 结果 如 图 7-18 所 示 。 
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hduser@master -/wordcount 


hduser@master:~$ cd ~/wordcount 
hduser@naster:~/wordcount$ hadoop jar wc.jar Mordcount /user/hduser/wordcount/in 
put/LICENSE. txt /user/hduser/wordcount/output 
16/65/15 26:66:18 INFO Configuration.deprecation: session.id is deprecated. Inst| 
ead, use dfs.netrics.session-id 
16/05/15 20:90:18 INFO jvm.JwnMetrics: Initializing JVM Metrics with processNane 
=JobTracker, sessionId= 
16/05/15 26:66:19 WARN mapreduce.Jobsubmitter: Hadoop command-line option parsin 
g not performed. ImpLement the Tool interface and execute your application with 
ToolRunner to remedy this. 
input.FileInputFormat: Total input paths to process : 1 
mapreduce. Jobsubmitter: number of splits:1 
mapreduce. Jobsubmitter: Subnitting tokens for job: job_lo| 


mapreduce. Job: The url to track the job: http://localhost 
mapreduce.Job: Runntng job: job_local2102721529_9601 
napred.LocalJobRunner: OutputComnitter set tn config nul 


mapred.LocalJobRunner: OutputCommttter is org.apache.hado| 
op.mapreduce. lib.output. FileoutputConnitter 


7-18 运行 WordCount 程序 


运行 后 ， 程 序 会 将 结果 存储 在 /userhduserwordcounVoutput 目录 中 ， 参 照 下 列 步骤 查看 结果 

人 DI01 查看 输出 目录 
在 “终端 ” 程序 中 输入 下 列 命 令 ， 查 看 运 

> 查看 HDFS 的 目录 


hadoop fs -ls /user/hduser/wordcount/output 


屏幕 显示 界面 如 图 7-19 所 示 ， 生 成 了 两 个 文件 。 


@ _SUCCESS: 代表 程序 运行 成 功 。 
@ ”part-r-00000: 运行 结果 的 文本 文件 。 


hduser@master ~/wordcount 


hduser@master:~/wordcount$s hadoop fs -ls /user/hduser/wordcount/output 
Found 2 items 

3 hduser supergroup © 2616-65-15 26:68 /user/hduser/wordcount/output/_SUCCESS 

3 hduser supergroup 8006 2016-05-15 29:00 /user/hduser/wordcount/output/part-r-00000 
hduser@master:~/wordcounts$ 


图 7-19 查看 输出 目录 
人 027 查看 输出 文件 
在 “终端 ”程序 中 输入 下 列 命令 ， 查 看 输出 文件 : 
> 查看 HDFS 中 的 输出 文件 内 容 


hadoop fs -cat /user/hduser/wordcount/output/part-r-00000|more 


输出 结果 如 图 7-20 所 示 ， 会 列 出 每 个 英文 单词 出 现 的 次 数 。 
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hduser@master: ~/wordcount 


hduser@master:~/wordcount$ hadoop fs -cat /user/hduser/wordcount/output/part-r-99999|more 
"as 4 
"contribution" 1 
"contributor"” 1 
"Derivative 1 
"Legal 1 
"License" 和 
"License"); 1 
"Licensor" 1 
"NOTICE" 1 
"Not 1 


"control” 1 
"printed 1 
"submitted" 1 
(sox) 1 


图 7-20 查看 输出 文件 


03 列 除 输出 目录 
如 果 要 再 次 执行 WordCount 程序 ， 请 先 删除 输出 目录 ， 这 样 才 不 会 出 现 文件 已 经 存在 的 
报错 信息 。 


hadoop fs -rm -R /user/hduser/wordcount/output 


运行 后 的 显示 结果 如 图 7-21 所 示 。 


hduser@master: ~/wordcount 


hduser@master:~/wordcount$ hadoop fs -ls /user/hduser/wordcount/output 
Found 2 items 


3 hduser supergroup 8 2616-65-15 26:66 /user/hduser/wordcount/output/_SUCCESS 
3 hduser supergroup 8666 2616-65-15 26:66 /user/hduser/wordcount/output/part-r-69666 
hduser@master:~/wordcount$ 


图 7-21 删除 输出 目录 


@ ”程序 设计 模式 不 容易 使 用 ， 而 且 Hadoop 的 Map Reduce API 太 过 低级 ， 很 难 提高 开 
发 者 的 效率 。 

@@ 有 运行 效率 的 问题 ，MapReduce 需要 将 中 间 产 生 的 数据 保存 到 硬盘 中 ， 因 此 会 有 读 
写 数 据 延迟 的 问题 。 

@ 不 支持 实时 处 理 ， 它 原始 的 设计 就 是 以 批 处 理 为 主 。 


这 些 缺 点 可 在 下 一 章 介绍 的 Spark 中 解决 。 
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本 章 将 介绍 Spark 2.0 的 安装 ， 以 及 在 pyspark“ 终 端 2 
程序 界面 执行 Python Spark 程序 于 本 机 、 Hadoop YARN-client 
与 Spark Stand Alone 模式 。 
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在 Spark 官网 文件 中 ， 可 以 看 到 Spark 的 Cluster 模式 架构 图 〈 见 图 8-1)。 在 浏览 器 输 
入 下 列 官 网 网 址 : 


http://spark.apache.org/docs/latest/cluster-overview.html 


Worker Node 


Driver Program 


sd 


Cluster Manager 


8-1 Spark 的 Cluster 模式 架构 图 
参考 图 8-1: 


@ DriverProgram 就 是 程序 员 所 设计 的 Spark 程序 ， 在 Spark 程序 中 必须 定义 
SparkContext， 它 是 开发 Spark 应 用 程序 的 入 口 。 

@ SparkContext 通过 Cluster Manager 管理 整个 集群 ， 集 群 中 包含 多 个 Worker Node,， 在 
每 个 Worker Node 中 都 有 Executor 负责 执行 任务 。 


SparkContext 通过 Cluster Manager 管理 整个 集群 Cluster 的 好 处 是 : 所 设计 的 Spark 程序 
可 以 在 不 同 的 Cluster 模式 下 运行 。 
> Cluster Manager 可 以 在 下 列 模式 下 运行 
@ 林地 运行 (Local Machine ) 只 需要 在 程序 中 import Spark 的 链接 库 就 可 以 实现 。 
在 本 地 运行 时 ， 对 于 只 安装 在 一 台 计算 机 上 时 最 方便 ， 适 合 刚 入 门 时 学 习 、 测 试 使 
用 。 
@ Spark Standalone Cluster 一 一 由 Spark 提供 的 Cluster 管理 模式 ， 若 没有 架设 Hadoop 
Multi Node Cluster， 则 可 架设 Spark Standalone Cluster， 实 现 多 台 计 算 机 并 行 计 算 。 
在 这 个 模式 下 仍然 可 以 直接 存 取 Local Disk 或 是 HDFS 。 
@ Hadoop YARN (Yet Another Resource Negotiator ) 一 Hadoop 2.x 新 架构 中 更 高 效率 
的 资源 管理 核心 。Spark 可 以 在 YARN 上 运行 ， 让 YARN 帮助 它 进 行 多 台 机 器 的 资 
源 管理 。 
@ 在 云端 运行 -针对 更 大 型 规模 的 计算 工作 ， 本 地 机 器 或 自 建 集群 的 计算 能 力 恐 怕 
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难以 满足 。 此 时 可 以 将 Spark 程序 在 云 平 台 上 运行 , 例如 AWS 的 EC2 平台 。 使 用 云 
计算 的 好 处 是 不 需要 自己 架设 的 费用 ， 用 多 少 付 多 少 ， 随 时 可 扩充 。 
本 章 将 介绍 如 何在 本 地 (Local Machine)、Spark Standalone Cluster、Hadoop YARN 运行 
pyspark 。 
> Spark 安装 命令 整理 


本 章 命令 已 整理 在 本 书 的 博客 文章 中 。 当 练习 安装 时 , 可 以 复制 博客 文章 中 的 命令 , 然后 
粘贴 到 “终端 ”程序 中 。 这 样 既 可 节省 打字 的 时 间 ， 也 不 用 担心 打 错 字 (无 法 在 VirtualBox 
虚拟 机 的 Ubuntu“ 终 端 ”程序 中 执行 复制 /粘贴 操作 时 ,参考 第 3.9 节 的 说 明 , 设置 好 VirtualBox 
的 共享 剪贴 板 )。 本 书 博客 的 网 址 为 : 


http://blog.sina.com.cn/hadoopsparkbook 


Scala 的 介绍 与 安装 


Spark 支持 Scala、Java 和 Python 等 语言 ， 不 过 Spark 本 身 是 用 Scala 语言 开发 的 ， 所 以 必 
须要 先 安装 Scala。Scala 具有 以 下 特点 : 

@ Scala 可 编译 为 Java bytecode 字 节 码 ， 也 就 是 说 它 可 以 在 JVM ( Java Virtual 
Machine ) 上 运行 ， 具 备 跨 平 台 能 力 。 

@” 现 有 Java 的 链接 库 都 可 以 使 用 ， 可 以 继续 使 用 丰富 的 Java 开放 源码 生态 系统 。 

@ 。 Scala 是 一 种 函数 式 语言 。 在 函数 式 语言 中 ， 函 数 也 是 值 ， 与 整数 字符 串 等 处 于 同一 
地 位 。 函 数 可 以 作为 参数 传递 给 其 他 函数 。 

@ Scala 是 一 种 纯 面向 对 象 的 语言 ， 所 有 的 东西 都 是 对 象 ， 而 所 有 的 操作 都 是 方法 。 


因为 Spark 本 身 是 以 Scala 开发 的 ， 所 以 必须 先 安装 Scala。 
Joi 下 载 Scala 网 址 
我 们 将 把 Scala 安装 在 master 虚拟 机 上 ， 在 这 个 Scala 下 载 网 页 可 以 看 到 各 种 不 同 版 本 的 


Scala: 


http://www.scala-lang.org/files/archive/ 


在 图 8-2 所 示 的 这 个 网 页 可 以 看 到 各 种 不 同 版 本 的 Scala， 因 为 Spark 2.0 必须 配合 Scala 
2.11 版 本 ， 在 此 我 们 选择 2.11.6 版 本 。 
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Index of /files/archive - Mozilla Firefox 


盟 Index of /files/archive x 


€@ scala-lang.org c | 图" < 
SC3I3-QOCS-Z-TTOTEZ Z6-FeD-ZUT5 UZ:T4 
26-Feb-2015 02:14 


Scala-2.11.6; 26-Feb-2015 02:14 
尾 scala-2. 116zip 26-Feb-2015 02:14 
心 scala-2.11.5.deb scala-2.11.5.deb 07Jan-2015 01:49 75M 


必 scala-2.11.5.rpm 07-Jan-2015 01:49 107M 
必 scala-docs-2.11.5.txz 07Jan-2015 01:49 46M 
申 scala-docs-2.11.5.tgz 07-Jan-2015 01:49 81M 
Fs 
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de QQ > 
ETVT 
84M 
26M 
26M 


图 8-2 选择 版 本 


《2 下 载 Scala 


在 本 书 中 使 用 的 是 scala-2.11.6 版 本 ， 所 以 在 master 虚拟 机 的 “终端 ”程序 中 输入 下 列 命 


令 


> 下 载 scala-2.11.6 版 本 


wget http://www.scala-lang.org/files/archive/scala-2.11.6.tgz 


运行 后 屏幕 显示 界面 如 图 8-3 所 示 。 


hduser@master: ~ 


hduser@naster:~$ wget http://www. scala-lang.org/files/archive/scala-2.11.6.tgz 
2016-05-15 21:12:29- http://mm.scala- lang.org/ttles/archtve/scala-2,11.6.tg 


自在 角 析 主机 Www. scala-lang.org (www.scala-lang.org)... 


128.178.154.159 


正在 连接 www.scala-lang.org (www.scala-lang.org)|128.178.154.159|:89..。 已 连接 。 
司 昌 HTTP 请 求 ， 正 在 在 车 


待 回应 ..。 266 ok 
度 ; 27136723 (26) [appttcatton/x-gztp] 
正在 保存 至 : “scata-z.11.6.tgz” 


100%[=: >] 27,130,723 1.02MB/s 用 时 20s 


2016-05-15 21:12:52 (1.28 MB/s) - 已 保存 “scala-2.11.6.tgz” [27136723/27139723])| 


图 8-3 下 载 Scala 
(703 解压 缩 Scala 
在 “终端 ”程序 中 输入 下 列 命令 : 
> 解压 缩 scala-2.11.6.tgz 到 scala-2.11.6 目录 


tar xvf scala-2.11.6.tgz 


运行 后 屏幕 显示 界面 如 图 8-4 所 示 。 


hdusermmaster ~ 
hduser@naster:-$ tar xvf scala-2.11.6.tgz 
.11.6/ 
11.6/nan/ 
11.6/nan/nani/ 
-2.11.6/nan/nani/scala.1 
-2.11.6/nan/nani/scalap.1 


2711.6/nan/nani/fsc.1 
2.11.6/nan/nani/scaladoc.1 


图 8-4 解压 缩 Scala 
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人 4 把 Scala 迁移 到 /usrlocal 目录 
在 “终端 ”程序 中 输入 下 列 命令 : 


> 把 scala-2.11.6 迁移 到 /usr/local 目录 


sudo mv scala-2.11.6 /usr/local/scala 


运行 后 屏幕 显示 界面 如 图 8-5 所 示 。 


hduser@master: ~ 


hduser@master:~$ sudo mv scala-2.11.6 /usr/\local/scala 
[sudo] password for hduser: 
hduser@master:~$ 


图 8-5 把 Scala 迁移 到 /usr/local 目录 
05 Scala 用 户 环境 变量 的 设置 
在 “终端 ”程序 中 输入 下 列 命令 : 


> 启动 gedit 编辑 ~/.bashrc 
sudo gedit ~/.bashrc 


按 Enter 键 之 后 会 启动 gedit 来 编辑 ~/bashrc， 输 入 如 图 8-6 所 示 的 内 容 。 


*.bashrc (~) - gedit 


*bashrc x 


#Hadoop Variables 

export JAVA_HOME=/usr/Lib/jvm/java-7-openjdk-amd64 

export HADOOP_HOME=/usr/local/hadoop 

export PATH=$PATH:S$HADOOP_HOME/bin 

export PATH=$PATH:S$HADOOP_HOME/sbin 

export HADOOP_MAPRED_HOME=$HADOOP_HOME 

export HADOOP_COMMON_HOME=$HADOOP_HOME 

export HADOOP_HDFS_HOME=SHADOOP_HONME 

export YARN_HOME=SHADOOP_HOME 

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native 
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/1lib" 
export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native:$JAVA_LIBRARY_PATH 
#Hadoop Variables 

#5CALA Variables 


export SCALA_ HOME=/usr/Tocal/scala 
lexport_ PATH=SPATH:S$SCALA_HOME/bin 


图 8-6 编辑 ~/.bashrc 


说 明 如 下 : 


> 设置 SCALA_HOME ( scala 安装 目录 ) 为 /usr/local/scala 


export SCALA HOME=/usr/local/scala 
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> 设置 PATH 环境 变量 (加 入 $SCALA_HOME/bin ) 
让 我 们 在 不 同 的 目录 下 都 可 以 执行 scala 程序 。 
export PATH=$PATH:$SCALA HOME/bin 

G306 使 ~/.bashrc 修改 生效 


可 以 从 系统 注销 再 重新 登录 ， 或 使 用 source ~/bashrc 命令 让 用 户 环境 变量 的 设置 生效 ， 
如 图 8-7 所 示 。 


Source ~/.bashrc 


hduser@master: ~ 


hduser@master:~$ source ~/.bashrc 
hduser@master:~$ 加 
8-7 使 用 ~/.bashrc 修改 生效 


人 7 启动 scala 
至 此 ，scala 已 安装 完成 ， 接 下 来 参照 图 8-8 的 说 明 进 入 scala 交互 式 界面 。 


i 1. 输入 “scala” 再 按 Enter 键 ， 就 可 以 进入 scala 交互 界面 


Welcome to Scala version 2.11.6 (OpenJDK 64-Bit Server VM, Java 1.7.0_79). 
Type in expressions to have them evaluated. 


Type :help for more information. 2. 在 scala> 提 示 符 下 输入 “1+1”， 然 后 按 


Enter 键 ， 系 统 会 返回 res0: Int = 2 
res9: Int = 2 


3. 输入 “:q” 再 按 Enter 键 之 后 就 可 以 退出 scala 


hduser@master:~$ 


图 8-8 启动 scala 


夯 悦 安装 Spark 


接 下 来 介绍 如 何 安装 Spark。 
FI01 Spark 下 载 页 面 


在 浏览 器 输入 下 列 网 址 来 下 载 Spark: 


https://spark.apache.org/downloads.html 


注意 ， 在 此 选择 “choose a package type” 时 ， Spark 与 Hadoop 版 本 必须 相互 配合 。 因 为 
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Spark 会 读 取 Hadoop HDFS 并 且 必 须 能 在 HadoopYARN 执行 程序 , 所 以 必须 按照 我 们 目前 
安装 的 Hadoop 版 本 来 选择 package type。 因 为 我 们 之 前 安装 的 是 Hadoop 2.6.4， 所 以 在 此 选 


择 Pre-built for Hadoop 2.6 and later， 如 图 8-9 所 示 。 


安 Downloads |Apache si x 


1. 选择 版 本 2.0.0 
€ Cc | 鱼 安全 | https://spark.apache.org/downloags.h 


Download Apache Spark" 2. 选择 用 于 Hadoop 2.6 


版 或 更 高 的 版 本 


1. Choose a Spark releasd 


2. Choose a package typel 


5. Verify this release using the 2.0.0 signatures and ch ums and .pro [e E 


Note: Starting version 2.0 Spark Is built with Scala 2.11 by default Sca 4. 单 击 链接 处 ， 进入 下 载 页 面 


source package and bulld with Scala 2 10 support 


图 8-9 ”选择 下 载 合适 的 Spark 版 本 
人 2 打开 Spark 下 载 页 面 并 复制 链接 


3. Choose a download typd: | Select Apache Mirror v 
4 Download spar 3. 选择 下 载 方式 Apache Mirror 


J 


单 击 链接 后 ， 打 开 下 载 网 页 ， 我 们 可 以 选择 离 自己 比较 近 的 网 络 链接 ， 复 制 链接 的 网 址 ， 


如 图 8-10 所 示 。 


- D x 
7 Apache Download Mir x 


€ CC | © www.apache.org/dyn/closerlua/spark/spark-2.1.0/spark-2.1.0-bin-hadoopz 名 低 | 问 国 : 


DOD Home»Dyn About= Projects People- Getinvolved- Download SupportApache ~ 


custom ED 


The Apache Way 


APACHE 


Contribute 


ASF Sponsors 


Other mirror sites are suggested below. Please use the backup m/ 在 新 和 页 中 打开 本 接 
signatures to verify your downloads or if no other mirrors are W £ 在 新 祈 口 中 打开 磋 按 W) 


FRAEOPHIT) 号,， “复制 链接 地 址 ” 
HTTP 


http://apache fayea.com/spark/spark-2.1.0/spark-2.1.0-bin-ha! 


http://mirror.bit.edu.cn/apache/spark/spark-2.1.0/spark-2.1.0- 


http://mirrors.hust.edu.cn/apache/spark/spark-2.1.0/spark-2.1.0-bin-hadoop2.6.tgz 


8-10 复制 链接 地 址 


人 3 安装 Spark 


1. 用 鼠标 右键 单 击 链接 


在 “终端 ”程序 中 输入 wget， 再 按 空 格 键 ， 然 后 按 Ctrl + Shift + V 组 合 键 粘贴 之 前 所 复 
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制 的 网 址 。 


> 下 载 Spark 
wget http://d3kbcqa49mib13.cloudfront.net/spark-2.0.0-bin-hadoop2.6.tgz 


> 解压 缩 Spark 到 spark-2.0.0-bin-hadoop2.6 目录 
tar zxf spark-2.0.0-bin-hadoop2.6.tgz 


> 把 spark-2.0.0-bin-hadoop2.6 目录 移动 到 /usr/local/spark 
sudo mv spark-2.0.0-bin-hadoop2.6 /usr/local/spark/ 


运行 后 屏幕 显示 界面 如 图 8-11 所 示 。 


hduser@master:~$ wget http://apache.stu.edu. tw/spark/spark-2.0.9/spark-2.9.9-bin 
-hadoop2.6. tgz 
--2616-68-64 66:56:59-- http://apache.stu.edu.tw/spark/spark-2.6.6/spark-2.9.9- 
bin-hadoop2.6. tgz 
正在 解析 主机 apache.stu.edu.tw (apache.stu.edu.tw)... 126.119.118.1，2961:el16:c4| 
1:eeee::1 
正在 连接 apache.stu.edu.tw (apache.stu.edu.tw)1126.119.118.1|1:86... 已 连接 。 
已 发 出 HTTP 请 求 ， 正 在 等 待 回应 .. .266 ok 

: 184354523 (176M) [application/x-gzip] 

: “spark-2.6.9-btn-hadoop2.6.tgz” 


=>] 184,354,523 1.22MB/s in lm 58s 


:58 (1.49 MB/s) - “spark-2.0.0-bin-hadoop2.6.tgz’ saved [1843545| 


hduser@master :~$ tar zxf spark-2.0.0-bin-hadoop2.6.tgz 
hduser@master:~$ sudo mv spark-2.9.9-bin-hadoop2.6 /usr/local/spark/ 力 


图 8-11 安装 Spark 
04 用 户 环境 变量 设置 ~/.bashre 


在 “终端 ” 程序 中 输入 下 列 命 令 : 


> 编辑 ~/.bashrc 
sudo gedit ~/.bashrc 


按 Enter 键 之 后 会 打开 ~/.bashrc ， 加 入 下 列 Spark 环境 变量 (参考 图 8-12)。 


export HADOOP_COMMON, TIVE_DIR=SHADOOP_HOME/lib/native 
export HADOOP_OPTS="-Djava. Library.path=SHADOOP_HOME/ Lb 


export JAVA_LIBRARY -SHADOOP_HOME/ lib/native:$JAVA_LIBRARY_PATH 


export PATH=S{JAVA_HOME}/bin:S{PATH} 
export HADOOP_CLASSPATH=S{JAVA_HOME}/ Lib/too 

站 弯 量 
export SCALA HonEcyusrjtocatyscata 加 入 下 列 Spark 环境 变量 
export PATH=SPA- CALA_HOME/bip 


岳 文 本 制 表 符 庄 度 : 8” 行 1 和 2, 列 1 ” 桥 入 


图 8-12 设置 用 户 环境 变量 
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上 述 命令 说 明 如 下 : 


> 设置 SPARK_HOME 为 Spark 安装 目录 /user/local/spark 


export SPARK HOME=/usr/local/spark 
> 设置 PATH 环境 变量 ， 加 入 $SPARK_HOME/bin 
这 样 在 我 们 切换 到 不 同 的 目录 时 仍 可 以 执行 pyspark 程序 。 
export PATH=$PATH:$SPARK HOME/bin 
人 05 让 用 户 环境 交 量 的 设置 生效 
可 以 先 注销 再 重新 登录 系统 ， 让 ~/.bashrc 中 的 用 户 环境 变量 设置 生效 : 


Source ~/.bashrc 


运行 后 屏幕 显示 界面 如 图 8-13 所 示 。 


hduser@master: ~ 


hduser@master:~$ source ~/.bashrc 
hduser@master:~$ 目 


图 8-13 ”让 用 户 环境 变量 设置 生效 


3 启动 pyspark 交互 式 界面 


pyspark 的 优点 是 具有 交互 的 好 处 ， 输 入 命令 立刻 就 可 以 看 到 响应 。 
人 1) 启动 byspark 
在 “终端 ”程序 中 输入 下 列 命令 : 


> 进入 Spark 交互 式 界面 
pyspark 


运行 后 屏幕 显示 界面 如 图 8-14 所 示 ， 从 中 可 以 看 到 Spark 与 Scala 的 版 本 。 
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hduser@master ~ 
hduser@master:~$ pyspark 

|Python 2.7.6 (default, Jun 22 2615，17:58:13) 

[ccc 4.8.2] on linux2 

Type "help", "copyright", "credits" or "license" for more infornation. 

Using Spark's default 1og4j profile: org/apache/spark/log4j-defaults.properties 
setting default log level to "WARN". 

To adjust Loggtng level use sc.setLogLevel(newLevel). 


16/07/28 23:69:38 WARN NativeCodeLoader: Unable to load native-hadonn hrary for your platform... dd 
sing buttttn-java classes where applicable 
helcone to Spark 版 本 


EE A 

i 

I/ /\// /A\\ version 2.0.0 
/-/ 


jsing Python version 2.7.6 
ra EE 


default, Jun 22 2615 17:58:13) 


8-14 启动 pyspark 


人 2 退出 pyspark ( 见 图 8-15 ) 
请 在 >>> 提示 符号 后 输入 下 列 命令 : 


> 离开 pyspark 交 玉 式 界 面 
Exit() 


hduser@master: ~ 


>>> 
>>> 

>>> 

>>> 

>>> 

>>> exit() 
hduser@master:~$ 


8-15 退出 pyspark 


设置 pyspark 显示 信息 


Spark 系统 安装 后 ， 在 pyspark 交互 式 界面 中 默认 会 显示 很 多 信息 ， 有 时 太 多 信息 会 影响 
我 们 的 阅读 ， 所 以 建议 修改 设置 ， 让 它 只 显示 警告 信息 。 


Jo1 复制 log4j 模板 文件 
在 “终端 ”程序 中 输入 下 列 命 令 : 
> 切换 到 spark 配置 文件 目录 


cd /usr/local/spark/conf 
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> 复制 log4j 模板 文件 到 log4j.properties 
cp 1og4j .Properties .template 1og4j .Properties 


运行 后 屏幕 显示 界面 如 图 8-16 所 示 。 


hduser@master: /usr/local/spark/conf 


hduser@master:~$ cd /usr/local/spark/conf 
hduser@master: /usr/local/spark/conf$ cp log4j.properties.template Log4j.properties 


图 8-16 复制 log4i 模板 文件 


人 2 设置 log4j 
在 “终端 ”程序 中 输入 下 列 命令 ， 编 辑 log4j.properties: 


sudo gedit 1og4j .Properties 


按 Enter 键 之 后 会 打开 log4j.properties， 屏 幕 显示 界面 如 图 8-17 所 示 。 


*log4j.properties (/usr/local/spark/conf) - gedit 


文件 (F) 编辑 (E) ) # 
| . BE 
[9 *log4j.properties x 

# Set everything to be logged to the-console 在 这 里 原本 是 INFO， 已 改 为 WARN 
1Log4j .rootCategor |=waARN|| console 
log4j.appender .consoLe=org.apache.1Log4j.ConsoLeAppender 

log4j.appender .console.target=System.err 

log4j.appender .console.layout=org.apache.log4j.PatternLayout 

log4j.appender .console.layout.Conversionpattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n 


# Settings to quiet third party logs that are too verbose 

1og4j .Logger .org.spark-project.jetty=WARN 

log4j.logger .org.spark-project. jetty.util.component.AbstractLifeCycle=ERROR 
log4j.logger .org.apache.spark.repL.SparkIMainSexprTyper=INFO 

log4j.logger .org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=INFO 


纯 文 本 ，” ” 制 表 符 宽度 : 8 ~ 行 2 , 列 24 插入 
图 8-17 设置 log4j 


参照 图 8-17 将 log4j.rootCategory 原本 的 INFO (信息 ) 改 为 WARN (警告 ) 然后 单 击 “ 保 
存 ” 按 钮 关闭 窗口 。 


J03 再 次 进入 pyspark 
再 次 在 “终端 ”程序 中 输入 下 列 命令 ， 启 动 pyspark: 
pyspark 


你 会 发 现 信息 少 了 很 多 ， 只 列 出 了 重要 部 分 的 信息 ， 如 图 8-18 所 示 。 


158 


第 8 章 “Python Spark 的 介绍 与 安装 < 


hduser@master ~ 


hduser@master:~$ pyspark 

Python 2.7.6 (default, Jun 22 2615，17:58:13) 

[GCC 4.8.2] on linux2 

Type "help", "copyright", "credits" or "license" for more information. 
16/67/28 23:27:66 WARN NativeCodeLoader: Unable to load native-hadoop libra 
sing builtin-java classes where applicable 

Welcome to 


a J 

PR EA 

/一 / .一 八 -,-/-/ //\\ version 2.0.0 
I/ 


Using Python version 2.7.6 (default, Jun 22 2615 17:58:13) 
Sparksession available as 'Sspark'. 
>>> 


8-18 ”再 次 进入 pyspark 显示 的 信息 


创建 测试 用 的 文本 文件 


因为 我 们 后 续 要 测试 pyspark 读 取 HDFS， 所 以 必须 先 启动 Hadoop， 并 且 上 传 文件 到 
HDFS。 此 部 分 如 果 在 7.4 节 已 经 执行 ， 就 可 以 省 略 了 。 


人 ETOi 复制 LICENSE.txt ( 见 图 8-19 ) 
在 “终端 ”程序 输入 下 列 命令 ， 复 制 文本 文件 ; 


> 复制 LICENSE.txt 


cp /usr/local/hadoop/LICENSE.txt ~/wordcount/input 
11 ~/wordcount/input 


hduser@master: ~ 


hduser@master:~$ cp /usr/local/hadoop/LICENSE.txt ~/wordcount/input 
hduser@master:~$ LL ~/wordcount/input 

总 用 量 24 

drwxrwxr-x 2 hduser hduser 4696 5 月 15 26:37 ./ 

drwxrwxr-x 3 hduser hduser 4696 5 月 15 26:36 ../ 

-rw-r--r-- 1 hduser hduser 15429 5 月 15 26:37 LICENSE.txt 
hduser@master:~$ 目 


图 8-19 复制 LICENSE.txt 
人 2 启动 所 有 虚拟 服务 器 
首先 ， 必 须要 启动 所 有 虚拟 服务 器 ， 即 master、datal、data2、data3， 如 图 8-20 所 示 。 
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章 Oracle VM VirtualBox 管理 器 一 OO x 
管理 (F) 控制 (M) 帮助 (H) 


每 给 到 哆 总 明明 加。 国 备 份 [ 东 统 快照 ]() 


新 运 Q0) 设置 从 汪 际 ” 且 动 (T) 


加 写 规 加 预览 
名 称 。 。 data3 
操作 人 系统: Ubuntu (54-bib 
国 条 统 


内 存 大 小 : 4096 MB 
后 动 | 顺序， 软驱, 光驱 , 硬盘 
硬件 加 速 : YT-wAMD-Y, 谋 套 分 页 


图 8-20 ”启动 所 有 虚拟 服务 器 


人 3 进入 master 虚拟 机 ,启动 Hadoop Multi-Node Cluster 
在 master 虚拟 机 ， 启 动 “ 终 端 ” 程序 ， 输 入 下 列 指令 : 


> 启动 Hadoop Multi-Node Cluster 
start-all.sh 


运行 后 屏幕 显示 界面 如 图 8-21 所 示 。 


hduser@master:~$ start-all.sh 

This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh 

starting namenodes on [master] 

Imaster: starting namenode, logging to /usr/local/hadoop/logs/hadoop-hduser-name 


: starting datanode, logging to /usr/LocaL/hadoop/Logs/hadoop-hduser-datant 
de-datal.out 
data2: starting datanode, logging to /usr/LocaL/hadoop/Logs/hadoop-hduser-datan 


: starting datanode, logging to /usr/local/hadoop/logs/hadoop-hduser-datan 
de-data3.out 
Starting secondary namenodes [6.6.6.6] 
6.6.6.6: starting secondarynamenode, logging to /usr/LocaL/hadoop/Logs/hadoop-h 
user -secondarynamenode-master .out 
starting yarn daemons 
starting resourcemanager, logging to /usr/local/hadoop/logs/yarn-hduser-resourc 
manager -master .out 
data2: starting nodemanager, logging to /usr/local/hadoop/logs/yarn-hduser-noder 


: starting nodemanager, logging to /usr/local/hadoop/logs/yarn-hduser-noder 
lanager -datal.out 


图 8-21 启动 Hadoop Multi-Node Cluster 

J04 上 传 测试 文件 HDFS 目录 
接 下 来 ， 我 们 将 之 前 下 载 的 文本 文件 从 本 机 复制 到 HDFS。 

在 “终端 ”程序 输入 下 列 命令 : 
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> 在 HDFS 创建 目录 
hadoop fs -mkdir -p /user/hduser/wordcount/input 


> 切换 至 ~/wordcount/input 数据 文件 目录 
cd ~/wordcount/input 


> 上 传 文本 文件 到 HDFS 
hadoop fs -copyFromLocal LICENSE.txt /user/hduser/wordcount/input 


> 列 出 HDFS 文件 
hadoop fs -ls /user/hduser/wordcount/input 


执行 的 结果 如 图 8-22 所 示 ， 从 中 可 以 看 出 已 将 LICENSE.txt 上 传 到 HDFS 的 
/user/hduser/wordcount/input 目录 ， 


hduser@master: ~/wordcount/input 
hduser@mast hadoop fs -mkdir -p /user/hduser/wordcount/input 
hduser@mast' cd ~/wordcount/input 
hduser@master:~/wordcount/input$ hadoop fs -copyFromLocal LICENSE.txt /user/hdus| 


er/wordcount/input 

hduser@master:~/wordcount/input$ hadoop fs -1ls /user/hduser/wordcount/input 
Found 2 items 

-rw-r--r-- 3 hduser supergroup 15429 2616-695-15 19:57 /user/hduser/wordco| 
unt/input/LICENSE. txt 


图 8-22 上 传 测试 文件 HDFS 目录 


:二 J 二 口 
本 地 运行 pyspark 程序 
1 进入 pyspark 

首先 ， 运 行 pyspark 的 最 简单 方式 是 在 本 地 运行 ， 可 以 在 “终端 ”程序 中 输入 下 列 命令 : 


> 本 地 运行 pyspark 程序 


pyspark--master local[41] 


local[M 代 表 在 本 地 运行 ， 使 用 个 线程 (thread)， 也 就 是 说 可 以 同时 执行 NV 个 程序 。 虽 
然 是 在 本 地 运行 ， 但 是 因为 现在 CPU 大 多 是 多 个 核心 ， 所 以 使 用 多 个 线程 仍然 会 加 速 执行 。 
local[*] 会 尽量 使 用 我 们 机 器 上 的 CPU 核心 ， 我 们 也 可 以 指定 使 用 的 线程 数 ， 例 如 local[4] 
代表 使 用 4 个 线程 (thread )。 

运行 后 屏幕 显示 界面 如 图 8-23 所 示 。 
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hduser@master 


hduser@naster:~$ pyspark --master local[*] 
Python 2.7.6 (default, Jun 22 2015, 17:58:13) 


"*, "copyright", "credits" or "license" for more information. 
16/98/02 21:15:65 WARN NativeCodeLoader: Unable to load native-hadoop library fo 


r your platform... using builtin-java classes where applicable 
Welcome to 


VR /we 
NW 
/一 / .一 八 ,-/-/ /-/ 八 -\、 verston 2.0.0 


Using Python version 2.7.6 (default, Jun 22 2615 17:58:13) 
sparksesston available as 'spark'. 


图 8-23 在 本 地 运行 pyspark 
人 2 查看 当前 的 运行 模式 
在 >>> 提示 符号 下 输入 下 列 命令 ， 查 看 当前 的 运行 模式 : 


sc.master 


运行 后 屏幕 显示 界面 如 图 8-24 所 示 ， 我 们 可 以 看 到 返回 了 local[*]。 


hduser@master: ~ 


>>> sc.master 
u'local[*]" 


图 8-24 查看 当前 的 运行 模式 


703 读 取 本 地 文件 
我 们 将 执行 一 个 简单 的 Spark 程序 ， 在 >>> 提 示 符 后 输入 下 列 命 令 : 
> 读 取 本 地 的 文件 
路 径 前 加 上 “file:”， 告 诉 系统 要 读 取 HDFS 文件 。 
textFile=sc.textFile("file:/usr/local/spark/README .md") 
> 显示 项 数 
textFile.count () 


运行 后 屏幕 显示 界面 如 图 8-25 所 示 ， 我 们 可 以 看 到 共有 99 项 数据 。 


|>>> textFile=sc.textFile("file:/usr/local/spark/README.md") 
>>> textFile.count() 


图 8-25 读 取 本 地 文件 
人 4 读 取 HDFS 文件 


请 在 >>> 提示 符号 后 输入 下 列 命令 : 
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> 读 取 HDFS 文件 
在 路 径 前 加 上 “hdfs://master:9000”， 告诉 系统 要 读 取 HDFS 文件 。 


textFile =sc.textFile("hdfs://master:9000/user/hduser/wordcount/ 
input/LICENSE.txt") 


运行 后 屏幕 显示 界面 如 图 8-26 所 示 。 


hduser@master: ~ 


textFile =sc,textFiLe("hdfs://master:9666/user/hduser/wordcount/input/LICENSE.txt") 


textFile.count() 


8-26 读 取 HDFS 文件 


以 上 HDFS 存 取 路 径 为 “hdfs://master:9000”， 是 我 们 在 安装 Hadoop 时 设置 的 ， 请 参考 
第 5.3 节 步 又 5“ 编 辑 core-site.xml”。 


O05 退出 pyspark ( 见 图 8-27) 
请 在 pyspark 提示 符号 >>> 输入 下 列 命令 : 


exit () 
hduser@master: /usr/local/spark/conf 
>>> exit() 
hduser@master: /usr/local/spark/conf$ 


图 8-27 退出 pyspark 


在 Hadoop YARN 运行 pyspark 


Spark 可 以 在 Hadoop YARN 上 运行 ， 让 YARN 帮助 它 进行 多 台 机 器 资源 的 管理 。 接 下 来 
介绍 如 何在 Hadoop YARN 运行 pyspark。 


人 JJ01 在 Hadoop YARN 运行 pyspark 
在 master 虚拟 机 启动 “终端 ”程序 ， 输 入 下 列 命 令 : 


> 在 Hadoop YARN 运行 pyspark 


HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop pyspark --master yarn -deploy 
-mode client 


运行 后 ， 屏 幕 显示 界面 如 图 8-28 所 示 ， 最 后 会 出 现 >>> 提 示 符 。 
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hduser@master - 


|hduseremaster:-$ HADOOP_CONF_DIR=/usr/Local/hadoop/etc/hadoop pyspark --master 
arn --deploy-mode client 

Python 2.7.6 (default, Jun 22 2015, 17:58:13) 

[Gcc 4.8.2] on Linux2 

Type "help", "copyright", "credits" or "license" for more information. 
16/98/62 22:61:28 WARN NativeCodeLoader: Unable to Load native-hadoop library fq 
r your platforn... using builtin-java classes where applicable 
16/68/62 22:01:31 WARN Client: Neither spark.yarn.jars nor spark.yarn.archive il 


set, falling back to uploading libraries under SPARK_HOME. 
Welcone to 


| dl 三 
SN 
sad a a version 2.0.0 


Using Python version 2.7.5 (default, Jun 22 2615 17:58:13) 
sparksession available as 'spark'. 


图 8-28 在 Hadoop YARN 运行 pyspark 
以 上 命令 详细 说 明 如 下 : 


> 设置 Hadoop 配置 文件 目录 
HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop 


> 要 运行 的 程序 pyspark 
pyspark 
> 设置 运行 模式 是 YARN-client 


--master yarn --deploy-mode client 


B02 查看 当前 的 运行 模式 
在 >>> 提示 符号 下 输入 下 列 命 令 : 
> 查看 当前 的 运行 模式 


Sc.master 


运行 结果 如 图 8-29 所 示 ， 可 以 看 到 返回 了 YARN-client。 


hduser@master: ~ 


P>> sc.master 


'yarn-client' 
上 >> 


图 8-29 查看 当前 的 运行 模式 
《63 读 取 HDFS 文件 


在 >>> 提 示 符 下 输入 下 列 命令 ， 读 取 HDFS 文件 并 显示 笔 数 : 


textFile= sc.textFile("hdfs://master:9000/user/hduser/wordcount/input/ 


LICENSE .txt") 


运行 结果 如 图 8-30 所 示 。 
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hduser@master ~ 
|>>> textFile =sc.textFiLe("hdfs://master:9666/user/hduser/wordcount/input/LICENSE.txt") 
|>>> textFile.count() 


图 8-30 读 取 HDFS 文件 


人 4 在 Hadoop Web 界面 查看 PySparkShell App 
现在 我 们 已 经 在 Hadoop YARN 运行 了 pyspark， 所 以 在 Hadoop Web 界面 就 可 以 看 到 这 个 
应 用 程序 (Application) 了 。 


URL: http://localhost:8088/ 


参照 图 8-31 所 示 的 步骤 打开 Hadoop Web 界面 。 


All Applications - Mozilla Firefox 


3. 在 此 就 可 以 查看 
PySparkShell 应 用 程序 


Memor 


> Cluster 


About 
Nodes 


Apps Cont#iners Memory 


Submltted Pending Running Completed Ruhnng Used Total 


Apps 


本 
EE 1 0 1 0 3 5GB 24 GB 
NEW_SAVIN 

SUBMITTED Show 20 -|entries 

ACCEPTED ~ 四 
RUNNING ID User 人 Name Appllcatlon Type 4 


application 1456741733876 0001 hduser PySparkShell SPARK 


Showlng 1 to 1 of 1 entrles 


EAILED 
KILLED 


Scheduler 


图 8-31 在 Hadoop Web 界面 查看 PySparkShell App 


构建 Spark Standalone Cluster 运行 环境 


接 下 来 我 们 将 构建 Spark Standalone Cluster 运 行 环境 ,然后 测试 pyspark 在 Spark Standalone 
Cluster 环境 中 的 运行 。 具 体 步 又 如 表 8-1 所 示 。 


表 8-1 构建 Spark Standalone Cluster 运行 环境 
构建 步骤 说 明 


设置 Spark Standalone Worker 使 用 的 CPU、 内 存 等 


将 master 的 spark 程序 复制 到 datal 、data2 、data3 
设置 Spark Standalone Cluster 有 哪些 服务 器 
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人 OOi 复制 模板 文件 (template ) 来 创建 spark-env.sh 


人 是 Spark 的 环境 配置 文件 。Spark 和 便于 用 户 设置 时 作 
为 参照 。 在 master 虚拟 机 中 启动 “终端 ”程序 ， 输 入 下 列 命令 : 


> 复制 模板 文件 来 创建 spark-env.sh 


cp /usr/local/spark/conf/spark-env.sh.template /usr/local/spark/conf/ 
spark-env.sh 


运行 后 ， 屏 幕 显示 界面 如 图 8-32 所 示 。 


hduser@master:/usr/local/spark/conf$ cp /usr/local/spark/conf/spark-env.sh.templ. 
te /usr/local/spark/conf/spark-env.sh 


8-32 ”复制 模板 文件 来 创建 spark-env.sh 


02 设置 spark-env.sh 
可 以 在 “终端 ”程序 输入 下 列 命令 : 


> 编辑 spark-env.sh 
sudo gedit /usr/local/spark/conf/spark-env.sh 


按 Enter 键 之 后 就 会 用 gedit 打开 spark-env.sh 文件 ， 如 图 8-33 所 示 。 


spark-env.sh (Jusr/local/spark/conf) - gedit 


文件 (F) 编辑 (E 


spark-env.sh x 
- SPARK_DAEMON_JAVA_OPTS, to set config properties for all daemons (e.g. "-Dx=y") 
~ SPARK_PUBLIC_DNS, to set the public dns name of the master or workers 


Generic options for the daemons used in the standalone deploy mode 
- SPARK_CONF_DIR Alternate conf dir. (Default: S{SPARK_HOME}/conf) 


- SPARK_LOG_DIR Where log files are stored. (Default: S${SPARK_HOME}/Logs) 
- SPARK_PID_DIR Where the pid file is stored. (Default: /tmp) 
- SPARK_IDENT_STRING A string representing this instance of spark. (Default 


The scheduling priority for daemons. (Default: 9) 
SPARK_MASTER_IP=master 


SPARK_WORKER_CORES=1 
SPARK_WORKER_MEMORY=512m 输入 下 列 内 
SPARK_WORKER_INSTANCES=4 


sh ”” 制 表 符 宽度 : 8 ~ 行 55, 列 32 插入 
8-33 ”编辑 spark-env.sh 


spark-env.sh 文件 的 设置 内 容 ， 说 明 如 下 : 
> 设置 master 的 IP 或 服务 器 名 称 


export SPARK MASTER IP=master 
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> 设置 每 个 Worker 使 用 的 CPU 核心 


> 设置 每 个 Worker 使 用 的 内 存 


内 存 的 设置 必须 考虑 所 使 用 计算 机 的 内 存 容 量 ， 如 果 计 算 机 的 容量 不 足 ， 就 不 要 设置 太 多 。 
> 设置 实例 数 


人 3 将 master 的 spark 程序 复制 到 datal 
接 下 来 ， 我 们 将 master 的 spark 程序 复制 到 datal， 具 体 步骤 如 下 : 


@ 首先 在 master 的 “终端 ”程序 中 使 用 ssh 连接 到 datal ， 创 建 目录 、 更 改 所 有 者 。 
@ ”然后 使 用 scp 将 master 的 spark 程序 复制 到 datal 。 


scp 《secure copy 的 缩写 ) 可 在 Linux 加 密 传输 、 进 行 远程 文件 复制 ， 以 及 从 本 地 主机 复 | 
制 文件 到 远程 主机 。scp 命令 的 功能 很 多 ， 不 过 在 这 里 只 介绍 最 基本 的 功能 ， 命 令 格式 如 


下 : 


-< 递归 复制 整个 目录 。 


在 “终端 ”程序 中 输入 下 列 命令 : 
> SSH 连接 至 data1 


> 连接 成 功 后 创建 spark 目录 


> 更 改 所 有 者 为 hduser 


> 注销 data1 


> 使 用 scp 将 master 的 spark 程序 复制 到 data1 
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运行 后 ， 屏 幕 显示 界面 如 图 8-34 所 示 。 


eLcome to Ubuntu 14.64.4 LTS (GNU/Linux 4.2.0-27-generic x86_64) 


* Documentation: https://heLp.ubuntu.com/ 


hn48 packages can be updated. 2. 连接 成 功 后 创建 spark 目录 
he1 updates are security updates . 

ast login: Sat Jun 25 17:43:43 2016 from master 3. 更 有 者 为 hd 
duser@data1:~$| sudo mkdir /usr/local/spark 更 改 所 有 者 为 hduser 
sudo] password for hduser: 


duser@datal:~$| sudo chown hduser:hduser /usr/LocaL/spark 
duser@datal:~$ exit 
ogout 

Favserenes to datal closed. 


5. scp 从 master 


复制 到 datal 


duser@master:~4 sudo scp -r /usr/local/spark hduser@datal:/usr/local 
he authenticity of host ' 192.168.56.161)' can't 
CDSA key fingerprint is 67:060:38:8d:57:5e:64:58:d5:6a 
Are you sure you want to continue connecting (yes/no) 
arning: Permanently added 'datal,192.168.56.1601' (ECDSA) to the list of known 
bsts . 

duser@datal's password:| 目 | 7. 输入 datal 密码 


图 8-34 使 用 scp 复制 spark 程序 到 datal 


使 用 scp 复制 时 ， 系 统 会 询问 是 否 继续 ， 请 输入 “yes”。 因 为 要 复制 文件 到 datal， 所 以 
必须 输入 datal 密码 。 


人 4 将 master 的 spark 程序 复制 到 data2 
在 “终端 ”程序 中 输入 下 列 命令 ， 通 过 ssh 与 scp 将 master 的 spark 程序 复制 到 data2: 
> SSH 连接 至 data2 


ssh data2 


> 连接 成 功 后 创建 spark 目录 


sudo mkdir /usr/local/spark 


> 更 改 所 有 者 为 hduser 


sudo chown hduser:hduser /usr/local/spark 
> 注销 data2 

exit 
> 使 用 scp 将 master 的 spark 程序 复制 到 data2 


使 用 scp 复制 时 ， 系 统 会 询问 是 否 继续 ， 请 输入 “yes”。 因 为 要 复制 文件 到 data2， 所 
以 必须 输入 data2 密码 。 
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sudo scp -r /usr/local/spark hduser@data2:/usr/local 


运行 后 ， 屏 幕 显示 界面 如 图 8-35 所 示 。 


aster: ~ 


hduser@master:~9 ssh data2 


IlWelcome to Ubuntu 14.64.4 LTS (GNU/Linux 4.2.0-27-generic x86_64) 


* Documentation: https://heLp.ubuntu.com/ 


148 packages can be updated . 
1161 updates are security updates. 


Last Login: Sat Jun 25 17:49:12 2616 from master 


2. 连接 成 功 后 创建 spark 目录 
hduseredataz 3. 更 改 所 有 者 为 hduser 
[sudo] password for hduser: 


hduser@data2]~$ TE chown hduser:hduser /usr/local/spar 


hduser@data2:~ 5.sep 从 master 复 制 到 data2 | 
logout 4. | 4. 注销 data2 | data2 5. scp 从 master 5.sep 从 master 复制 到 daa2 | data2 
Connection to data2 closed. 


hduser@master:~$| sudo_scp usr/local/spark hduser@data2: /usr/local 
IThe authenticity of host 2 (192.168.56.162)' can't be estabLtshed。 
ECDSA key fingerprint is 67:060:38:8d:57:5e:64:58:d5:6a:92: 72Z:8f. 
be you sure you want to continue connecting (yes/no)?|yed 

arning: PermanentLy added 'data2,192.168.56.162' (ECDSA) to the list of known h 


losts. 

hduser@data2's passwor 村 改 一 一 一 一 一 一 一 一 一 一 一 一 7. 输入 data2 密码 
图 8-35 复制 spark 程序 到 data2 

D05 将 master 的 spark 程序 复制 到 data3 


在 “终端 ”程序 中 输入 下 列 命令 ， 通 过 ssh 与 scp 将 master 的 spark 程序 复制 到 data3: 
> SSH 连接 至 data3 


ssh data3 


> 连接 成 功 后 创建 spark 目录 


sudo mkdir /usr/local/spark 


> 更 改 所 有 者 为 hduser 


sudo chown hduser:hduser /usr/local/spark 


> 注销 data3 
exit 
> 使 用 scp 将 master 的 spark 程序 复制 到 data3 


使 用 scp 复制 时 ， 系 统 会 询问 是 否 继续 ， 请 输入 “yes”。 因 为 要 复制 文件 到 data3， 所 
以 必须 输入 data3 密码 。 
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sudo scp -r /usr/local/spark hduser@data3:/usr/local 


运行 后 ， 屏 幕 显示 界面 如 图 8-36 所 示 。 


hduser@master: ~ 


hduser@master: 


Welcome to Ubuntu 14.64.4 LTS (GNU/Linux 4.2.0-27-generic x86_64) 
148 packages can be updated. 


连接 成 功 后 创建 spark 目录 
161 updates are security updates. 


Last login: Sat Jun 25 18:36:11 20 from _ master 
hduser@data3: -SLsudo mkdir /usr/local/spark | 3. 更 改 所 有 者 为 hduser 
[sudo] password for_hd 

hduser@data3:~$ 

hduser@data3:~$|exit | ES 
et a 5. scp 从 master 复制 到 data3 
Connection to data3 closed. 

hduser@master:~$ |sudo scp -r /usr/local/spark hduser@data3: /usr/local 
The authenticity of host 'data3 (192.168.56.163)' can't be established. 


ECDSA key fingerprint is 67:060:38:8d:57:5e:64:58:d5:6a:92:8c:c7:65:;22:8f. 

Are you sure you want to continue connecting (yes/no)? yes 

Warning: PermanentLy added 'data3,192.168.56.163' (ECDSA) to the list of known h 
osts. 


hduser@data3's password: 
图 8-36 将 master 的 spark 程序 复制 到 data3 


* Documentation: https://heLp.ubuntu.com 


本 TFT06 编辑 slaves 文件 
可 以 在 “终端 ”程序 中 输入 下 列 命令 : 


> 编辑 slaves 文件 
设置 Spark Standalone Cluster 有 哪些 服务 器 : 


sudo gedit /usr/local/spark/conf/slaves 


按 Enter 键 之 后 就 会 用 gedit 打开 slaves 文件 ， 如 图 8-37 所 示 。 


slaves (/usr/local/spark/conf) - gedit 


8-37 ”编辑 slaves 文件 
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一 


在 Spark Standalone 运行 pyspark 


人 To01 启动 Spark Standalone Cluster 
可 以 在 “终端 ”程序 中 输入 下 列 命令 : 


> 启动 Spark Standalone Cluster 
/usr/local/spark/sbin/start-all.sh 


运行 后 屏幕 显示 界面 如 图 8-38 所 示 ， 可 以 看 到 一 共 启 动 了 3 个 worker。 


hduser@master: ~ 


i 
1 周到 waste 
starting org.apache.spark.deploy.master .Master, logging to /usr/LocaL/spark/Logs| 
spark-hduser-org.apache.spark.deploy.master .Master-1-master .out 

data3: starting org.apache.spark.deploy.worker .Worker, 

rk/logs/spark-hduser -org.apache.spark.deploy.worker .Worker-1-data3.out 

data2: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/spa 
rk/logs/spark-hduser -org.apache.spark.deploy.worker .Worker-1-data2.out 

datal: starting org.apache.spark.deploy.worker .Worker, logging to /usr/local/spa 
rk/logs/spark-hduser -org.apache.spark.deploy.worker .worker-1-datal.out 

data3: failed to Launch org.apache.spark.deploy.worker .Worker: 

data3: full Log in /usr/LocaL/spark/Logs/spark-hduser-org.apache.spark.depLoy.wq 


2. 启动 3 个 


worker 


图 8-38 启动 Spark Standalone Cluster 


> 分 别 启 动 master 与 slaves 


之 前 我 们 使 用 start-all.sh 会 同时 启动 master 与 slaves， 也 可 以 分 别 启动 master 与 slaves， 
命令 如 表 8-2 所 示 。 


表 8-2 分 别 启动 master 与 slaves 
命令 说 明 


/usr/local/spark/sbin/start-master.sh 启动 master 服务 器 
/usr/local/spark/sbin/start-slaves.sh 启动 slaves 服务 器 


人 2 在 Spark Standalone 运行 pyspark 
可 以 在 “终端 ”程序 中 输入 下 列 命 令 : 
> 在 Spark Standalone 运行 pyspark 程序 


pyspark --master spark://master:7077 --num-executors 1 --total-executor 
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=COres 3 
--executor-memory 512m 


运行 后 屏幕 显示 界面 如 图 8-39 所 示 。 


duser@naster:~$ pyspark --master spark://master:7677 --num-executors 1 --total- 
kecutor-cores 3 --executor-memory 512m 

ython 2.7.6 (default, Jun 22 2615，17:58:13) 

GCC 4.8.2] on linux2 

ype "help", "copyright", "credits" or "license" for more information 

6/67/28 23:56:36 WARN NativeCodeLoader: Unable to load native-hadoop library fol 
your platform... using builtin-java classes where applicable 

Nelconme to 


version 2.0.0 


sing Python version 2.7.6 (default, Jun 22 2615 17:58:13) 
BparkSession available as 'spark'. 
>> 


图 8-39 在 Spark Standalone 运行 pyspark 
人 3 查看 当前 的 运行 模式 
在 >>> 提示 符号 下 输入 下 列 命令 : 
> 查看 当前 的 运行 模式 


sc.master 


运行 后 屏幕 显示 界面 如 图 8-40 所 示 ， 我 们 可 以 看 到 返回 了 spark://master:7077。 


>>> sc.master 
u'spark://master:79077"' 
>>> 


图 8-40 查看 当前 的 运行 模式 


《IO4 读 取 本 地 文件 
在 >>> 提 示 符 后 输入 下 列 命令 读 取 本 地 文件 : 


textFile=sc.textFile("file:/usr/local/spark/README .md") 
textFile.count 


运行 后 ， 屏 幕 显示 界面 如 图 8-41 所 示 。 


hduser@master: ~ 


p>> textFile=sc.textFile("file:/usr/local/spark/README.md") 
p>> textFile.count() 


图 8-41 读 取 本 地 文件 
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注意 ， 当 在 cluster 模式 (如 YARN-client 或 Spark stand alone 模式 ) 读 取 本 地 文件 时 ， 因 
为 程序 会 分 布 在 不 同 的 机 器 中 执行 ， 所 以 必须 确认 所 有 的 机 器 都 有 该 文件 ， 否 则 会 发 生 错 误 。 

如 上 范例 ， 我 们 读 取 file:/usr/local/spark/README.md， 因 为 每 一 个 机 器 都 有 该 文件 ， 所 
以 不 会 发 4 


错误 。 建 议 最 好 在 cluster 模式 读 取 HDFS 文件 ， 这 样 才 不 会 有 问题 。 
人 5 读 取 HDFS 文件 


在 >>> 提示 符号 输入 下 列 命令 ， 读 取 HDFS 文件 并 显示 笔 数 。 


textFile=sc.textFile("hdfs://master:9000/user/hduser/wordcount/input/ 
LICENSE .txt") 
textFile.count () 


运行 后 屏幕 显示 界面 如 图 8-42 所 示 。 


>>> textFile = 
/LICENSE. txt") 
>>> textFile.count() 


sc.textFile("hdfs://master:9000/user/hduser /wordcount/inpu 


8-42 读 取 HDFS 文件 


Spark Web UI 界面 


现在 我 们 已 经 在 Spark Standalone cluster 运行 了 pyspark， 所 以 可 以 在 Spark Web UI 界 
面 看 到 这 个 应 用 程序 (Application) 。 
人 1) 启动 Spark Standalone Web UI 界面 


可 以 在 浏览 器 输入 下 列 网 址 ， 查 看 Spark Standalone Web UI 界面 。 
http://master:8080/ 


运行 后 屏幕 显示 界面 如 图 8-43 所 示 ,， 从 中 可 以 看 到 启动 后 共有 3 个 worker 与 当前 运行 的 
程序 pyspark。 


人 2 查看 Spark Jobs 


单 击 PySparkShell 链接 后 ， 我 们 可 以 看 到 Spark Jobs 有 两 个 job， 分 别 是 之 前 读 取 本 地 
与 HDFS 的 job， 如 图 8-44 所 示 。 
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Spark Master at spark://master:7077 - Mozilla Firefox 


Spark Master at spark:/... x 


€)® master ellas 位 自 加 3 合 9 


Spark ,。 Spark Master at spark://master:7077 


URL: spark:/master:7077 
REST URL: spark-/master:6066 
Alive Workers: 3 

Cores in use: 3 Total, 3 Used 
Memory in use: 1536.0 MB Total, 1536.0 MB Used 
Applications: 1 Running, 0 ComF 


Drivers: 0 Running, 0 Completed 
Status: ALIVE 确认 启动 后 共有 3 个 worker 


Workers 


Worker ld Address State Cores Memory 

192.168.56.101:43413 ALIVE 1(1Used) 512.0 MB (512.0 MB Used) 
192.168.56.102:33018 ALIVE 1(1Used) 512.0 MB (512.0 MB Used) 
192.168.56.103;44217 ALIVE 1(1Used) 512.0 MB (512.0 MB Used) 


2. 单 击 此 PySparkShell 链接 


Running Applications 


Application ID Cores Memory per Node Submitted Time User State Duration 


app-20160729003219-000C 3 512.0 MB 2016/07/29 00:32:19 hduser RUNNING 49s 


8-43 ”启动 Spark Standalone Web UI 界面 


pysparkshell- Spark Jobs x 


€€)® 192.168.56.100:4040/jobs/ © ||Q search 食 白 全 名 三 
Spaik’ , a Jobs | Stages Storage Environment Executors PySparkShell applicaton UI 
Spark Jobs (?) 


Total Uptime: 18 min 
Scheduling Mode: FIFD 
Completed Jobs: 2 


» EventTimelne 
Completed Jobs (2) 
Job ld_Description Submitted Duration Stages: Succeeded/Total Tasks (forall stages): Succeeded/Total 


中 zoneo7z5171548 ss in lr em 
| 0 counl a <etdin> 2016/07/25 17:14:37 5s 11 ee 


图 8-44 查看 Spark Jobs 


本 


人 3 查看 Spark Jobsl 详细 信息 


可 以 用 鼠标 单 击 Job 来 查看 Job 详细 的 执行 过 程 ， 如 图 8-45 所 示 ， 这 些 信息 可 用 于 我 们 
调试 或 Performance Tuning〈 性 能 调 优 ) 时 找 出 那些 执行 缓慢 的 Job。 
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Spa ,,, Jobs | Stages Storage Emionment Execuors SQL 


Details for Job 1 


口 Enable zooming 
Execulors 
Added 


国 Nemowed Exeoutor ladded 


Siages 
Completed 

Faled 
Active 


# 
5 20 25 30 
29 uly 00:17 


图 8-45 ”查看 Spark Jobsl 详细 信息 
DI04 停止 Spark standalone cluster 


Se Job 执行 的 时 间 轴 
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在 “终端 ”程序 中 输入 下 列 指 令 ， 停 止 Spark standalone cluster: 


/usr/local/spark/sbin/stop-all.sh 


运行 后 ， 屏 幕 显示 界面 如 图 8-46 所 示 。 


hduser@master:~$ /usr/local/spark/sbin/stop-all.sh 
ata2: stopping org.apache.spark.deploy.worker .Worker 
ata3: stopping org.apache.spark.deploy.worker .Worker 
atal: stopping org.apache.spark.deploy.worker .Worker 
|stopptng org.apache.spark.deploy.master .Master 
duser@naster:~$ 


图 8-46 停止 Spark standalone cluster 


本 章 我 们 介绍 了 Spark 的 安装 ， 并 且 示 范 了 如 何 使 用 Python Spark 在 不 同 模式 下 执行 、 
读 取 本 地 文件 与 HDFS 文件 。 只 是 在 pyspark 是 在 “终端 ”程序 中 使 用 纯 文本 界面 时 较 不 方 
便 ， 而 且 执行 的 命令 与 结果 也 无 法 记录 ， 所 以 下 一 章 我 们 将 介绍 IPython Notebook。IPython 


Notebook 可 以 让 我 们 将 数据 分 析 的 过 程 、 运 行 后 的 命令 与 结果 存储 成 笔记 本 ， 下 次 打 


本 时 ， 就 可 以 重新 执行 这 些 命令 。 


笔记 
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在 IPython Notebook 运 行 
Python Spark 程 序 


安装 Python 最 方便 的 方式 是 使 用 软件 包 来 安装 。 安 装 
Anaconda 软件 包 时 会 同时 安装 很 多 软件 包 ， 包 括 IPython 
Notebook、NumPy、SciPy、Matplotlib。 这 几 个 是 用 于 数据 分 
析 、 科 学 计算 上 的 常用 软件 包 。 

IPython Notebook 具备 交互 式 界面 ， 我 们 可 以 在 Web 界 
面 输入 Python 命令 后 立刻 看 到 结果 。 我 们 还 可 将 数据 分 析 的 
过 程 和 运行 后 的 命令 与 结果 存储 成 笔记 本 , 下 次 可 以 打开 笔记 
本 ， 重 新 执行 这 些 命令 ,IPython Notebook 笔记 本 可 以 包含 文 
字 、 数 学 公式 、 程 序 代码 、 结 果 、 图 形 、 视 频 。 因 为 IPython 
Notebook 是 功能 强大 的 交互 式 界 面 ， 很 适合 数据 分 析 ， 所 以 
在 后 续 章节 中 我 们 会 使 用 IPython Notebook 示范 Spark 的 


命令 。 
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安装 Anaconda 


安装 Anaconda 的 步骤 如 下 : 
人 ET) 复制 安装 Anaconda 的 下 载 网 址 


> 连接 continuum 网 址 
https://repo.continuum.io/archive/index.html 


当 向 下 浏览 时 ， 我 们 可 以 看 到 Anaconda for Linux， 这 里 选择 下 载 Anaconda 
2-2.5.0-Linux-x86_64.sh 〈 见 图 9-1)。 因 为 此 版 本 与 Spark 2.0 兼容 ， 所 以 建议 安装 此 版 本 。 


Anaconda installer archive - Mozilla Firefox 


图 Anaconda installera... x 


1. 输入 网 址 


Anaconda3-4.0.0-Windows-x86_64.exe 345.4M 2016-03-29 11:16:22 
Anaconda2-2.5.0-Linux-x86.sh 330.4M 2016-02-03 15:41:54 


3909M 2016-02-0315:41:18 | 2. 在 Linux 64-bit 
OpenLink in New Tab 单 击 鼠 标 右 键 


Open Link in New Window 
Open Link in New Private Window 


repo.continuum.io/arcl 


Anaconda2-2.5.0-MacOSX-x86_ 
Anaconda2-2.5.0-MacOSX-x86_ 
Anaconda2-2.5.0-Windows-x86 
Anaconda2-2.5.0-Windows-x86 。” Bookmark This Link 
Anaconda3-2.5.0-Linux-x86.sh | _SaveLinkAs... 


3. 选择 Copy Link Location 
Anaconda3-2.5.0-Linux-x86_64| | _ copyLink Location 


Anaconda3-2.5.0-MacOSX-x86 | Search Google for "Anaconda2-2.5.0...” 


Anaconda3-2.5.0-MacOSX-x86 | 


Inspect Element (9) 


图 9-1 选择 安装 Anaconda 的 下 载 网 址 


本 Bl02 下 载 Anaconda2-2.5.0-Linux-x86_64.sh 


在 “终端 ”程序 输入 wget 后 按 空 格 键 , 然后 按 Ctrl + Shift + V 组 合 键 粘贴 之 前 所 复制 的 
网 址 。 


> 下 载 Anaconda2-2.5.0-Linux-x86_64.sh 
wget https://repo.continuum.io/archive/Anaconda2-2.5.0-Linux-x86 64.sh 


运行 结果 如 图 9-2 所 示 。 
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hduser@master:~$ wget https://repo.continuum.io/archive/Anaconda2-2.5.0-Linux 


-x86_64.sh 


--2616-68-16 13:21:17-- https://repo.continuum.io/archive/Anaconda2-2.5.0-Lil 


nux-x86_64.sh 


正在 解析 主机 repo.continuum.io (repo.continuum.io)... 23.21.228.27，54.243.35 


:219, 54.163.242.177, ... 


正在 连接 repo.conttnuum.io (repo.continuum.io)|23.21.228.27|:443... 已 连接 。 


已 发 出 HTTP 请 求 ， 正 在 等 待 回应 .. .266 ok 
长 度 : 469842279 (391M) [application/octet-stream] 
saving to: ‘Anaconda2-2.5.0-Linux-x86_64.sh’” 


166%[==: 


2616-68-16 13:25:68 (1.76 MB/s) - ‘Anaconda2-2.5.0-Linux-x86_64.sh’ saved [46| 


9842279/469842279] 


>] 469,842,279 1.76MB/s in 3m 56s 


图 9-2 下 载 Anaconda2-2.5.0-Linux-x86-64.sh 


03 安装 Anaconda 


在 “终端 ”程序 输入 下 列 命令 ， 执 行 Anaconda2-2.5.0-Linux-x86_64.sh。 


bash Anaconda2-2.5.0-Linux-x86 64.sh -b 


运行 后 ， 屏 幕 显示 结果 如 图 9-3 所 示 。 


duser@master:~$ bash Anaconda2-2.5.6-Linux-x86_64.sh -b 

REFIX=/home/hduser /anaconda2 
: _cache-0.0-py27_x0 ... 

python-2.7.11-0 ... 

: abstract-rendering-6.5.1-npll6py27 6 ... 

: alabaster-0.7.7-py27 0 ... 

: anaconda-client-1.2.2-py27 .0 ... 

: argcomplete-1.0.0-py27_1 ... 

: astropy-1.1.1-npll69py27 6 ... 

: babel-2.2.0-py27 0 ... 

: backports_abc-0.4-py27 0 ... 

: beautifulsoup4-4.4.1-py27 © ... 


图 9-3 安装 Anaconda 


以 上 指令 加 上 “-b” 是 指 batch， 即 批 次 安装 ， 会 自动 省 略 阅读 License 条 款 ， 


到 /home/hduseranaconda2 路 径 。 


人 04 编辑 ~/bashrc 加 入 模块 路 径 


可 以 在 “终端 ”程序 输入 下 列 命令 编辑 ~/.bashrc: 


sudo gedit ~/.bashrc 


运行 后 ， 显 示 结果 如 图 9-4 所 示 。 
以 上 设置 说 明 如 下 : 


> 加 入 Anaconda 路 径 
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将 Anaconda 执行 时 的 路 径 加 入 PATH， 可 在 不 同 路 径 执行 Anaconda。 


自动 安装 
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export PRTH=/home/hduser/anaconda2/bin:SPRATH 
export ANACONDA PATH=/home/hduser/ anaconda2 


*.bashrc (~) - gedit 


回 *bashrc x 
export PATH=/home/hduser/anaconda2/bin:SPATH 
export ANACONDA_PATH=/home/hduser/anaconda2 


export PYSPARK_DRIVER_PYTHON=SANACONDA_PATH/bin/ipython 
export PYSPARK_PYTHON=$ANACONDA_PATH/bin/python 


图 9-4 编辑 ~/.bashrc 加 入 模块 路 径 


> 加 入 pyspark 设置 


当 我 们 执行 pyspark 时 会 使 用 下 列 pyspark 设置 。 


export PYSPARK DRIVER PYTHON=$ANACONDA PATH/bin/ipython 
export PYSPARK PYTHON=$ANACONDA PATH/bin/python 


本 F705 使 ~/bashrc 修改 生效 


我 们 可 以 重新 注销 再 登录 ， 或 使 用 下 列 命令 让 用 户 环境 变量 的 设置 生效 。 


Source ~/.bashrc 
运行 后 结果 如 图 9-5 所 示 。 


hduser@master: ~ 


hduser@master:~$ source ~/.bashrc 
hduser@master:~-$ 目 


图 9-5 使 ~/.bashrc 修改 生效 


C3706 查看 Python 版 本 
可 以 在 “终端 ”程序 中 输入 下 列 命 令 : 
Python --version 
运行 后 屏幕 显示 界面 如 图 9-6 所 示 ， 版 本 应 该 是 Anaconda 2.5.0。 


hduser@master: ~ 


hduser@master:~$ python --version 
Python 2.7.11 :: Anaconda 2.5.6 (64-bit) 


图 9-6 查看 Python 版 本 


本 D07 在 datal、data2、data3 安装 Anaconda 


因为 我 们 后 续 会 在 cluster 模式 运行 python spark 程序 (该 程序 必须 在 master、datal、 
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data2、data3 执行 )， 所 以 必须 在 datal 、data2 、data3 安装 Anaconda。 
参照 步骤 2~6， 在 datal、data2、data3 安装 Anaconda。 


> data1 安装 成 功 后 查看 版 本 


hduser@datal:~$ python --version 
Python 2.7.11 :: Anaconda 2.5.0 (64-bit) 


> data2 安装 成 功 后 查看 版 本 


hduser@data2:~$ python --version 
Python 2.7.11 :: Anaconda 2.5.6 (64-bit) 


> data3 安装 成 功 后 查看 版 本 


hduser@data3:~$ python --version 
Python 2.7.11 :: Anaconda 2.5.6 (64-bit) 


在 IPython Notebook 使 用 Spark 


本 节 将 介绍 如 何在 IPython Notebook 使 用 Spark。 


人 ED) 创建 ipynotebook 工作 目录 
可 以 在 “终端 ”程序 中 输入 下 列 命令 ， 创 建 并 切换 ipynotebook 工作 目录 。 
mkdir -p ~/pythonwork/ipynotebook cd ~/pythonwork/ipynotebook 


按 Enter 键 后 ， 运 行 结果 如 图 9-7 所 示 。 


hduser@master: ~/pythonwork/ipynotebook 


Ihduser@master:~$ mkdir -p ~/pythonwork/ipynotebook 
Ihduser@master:~$ cd ~/pythonwork/ipynotebook 
Ihduser@naster:~/pythonwork/ipynotebook$ 目 


图 9-7 创建 ipynotebook 工作 目录 
本 B02 在 IPython Notebook 界面 中 运行 pyspark 


进入 工作 目录 后 ， 先 在 “终端 ”程序 中 输入 下 列 命令 ， 再 在 IPython Notebook 界面 运行 
pyspark， 默 认 是 在 本 机 运行 pyspark。 


PYSPARK DRIVER PYTHON=ipython PYSPARK DRIVER PYTHON OPTS="notebook" pyspark 
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按 Enter 键 后 就 会 启动 浏览 器 , 默认 的 网 址 是 http://localhost:8888。 打开 IPython Notebook 
界面 ， 如 图 9-8 所 示 。 


日 acttve kernels 
The Jupyter Notebook ts runntng at: http://| 


(process:3961): GLib-CRITICAL **: g_slice_set_config: assertion 'sys_pag| 


le_size == @' fatled 


Home 


localhost e 5 


二 Jupyter 


图 9-8 ”IPython Notebook 界面 


ER3 新 建 一 个 IPython Notebook 
进入 IPython Notebook 界面 ， 可 以 按照 图 9-9 所 示 的 步骤 新 建 Notebook。 


Home 


@ localhost 


ZJupyter 


os | Rumng Custers 
Seloct Home to perform actions on them. 


-jj 


图 9-9 新 建 Notebook 


人 4 新 建 的 IPython Notebook 
新 建 IPython Notebook 后 ， 会 打开 新 的 页 面 。 默 认 的 Notebook 名 称 是 Untitled， 我 们 
可 以 用 鼠标 单 击 后 修改 Notebook 名 称 ， 如 图 9-10 所 示 。 
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€ 国 Iacalhost 


TF Jupyter Untided cost cnocnpom: atow secona aoo msavos cnangos) 


Fle Edt Vew lnset Cel Kemel Hsp 


图 9-10 新 建 的 Notebook 界面 
本 J05 输入 新 的 Notebook 名 字 


用 鼠标 单 击 后 ， 输 入 新 的 名 字 ， 再 单 击 OK 按钮 ， 如 图 9-11 所 示 。 


Rename Notebook 


‘Entera now nolebook name 输入 新 的 名 字 


图 9-11 输入 新 名 字 


CJ06 在 IPython Notebook 运行 程序 代码 


在 IPython Notebook 的 Cell (程序 单元 格 ) 输入 程序 代码 ,然后 按 Shift + Enter 或 Ctrl + 
Enter 组 合 键 运行 程序 代码 ， 这 两 种 方式 的 差异 如 下 。 


@ Shift+ Enter: 运行 后 ， 光 标 会 移 至 下 一 个 Cell ( 程序 单元 格 ) 。 
@ Ctrl+ Enter: 运行 后 ， 光 标 仍 在 当前 的 Cell ( 程序 单元 格 ) 。 


运行 结果 如 图 9-12 所 示 。 


二 JU pyter Ch09 (autosaved) 


File Edit View Insert Cell Kernel Help 


四 | 3 外 有 个 小 时 国 CC code 二 名 | 


1. 在 Cell (程序 单元 格 ) 输入 sc.master， 然 后 
按 Shift + Enter 组 合 键 运行 程序 代码 
outr [urlocal["]| 一 | > 运行 后 会 显示 当前 的 运行 模式 是 local 


图 9-12 运行 程序 代码 
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人 7 IPython Notebook 运行 后 的 屏幕 显示 结果 
运行 结果 如 图 9-13 所 示 。 


sc.master 


In 代表 输入 的 命令 
Out 代表 命令 执行 后 输出 的 结果 


图 9-13 运行 结果 


08 读 取 本 地 文件 程序 代码 
在 IPython Notebook 新 的 Cell 输入 如 图 9-14 所 示 的 程序 代码 来 读 取 本 地 文件 。 


In [2]: © textFile=sc.textFile("file:/usr/local/spark/README.md") 


textFile.count 
执行 后 显示 文件 个 数 


图 9-14 读 取 本 地 文件 程序 代码 
09 输入 读 取 HDFS 文件 程序 代码 


使 用 sc.textFile 读 取 HDFS 文件 之 前 ， 要 先 启 动 Hadoop 并 将 测试 文本 文件 上 传 到 
HDFS (请 参考 第 8.5 节 的 说 明 ),， 在 程序 单元 格 输入 下 列 命 令 , 读 取 HDFS 文件 并 查看 文本 
文件 共 几 项 数据 。 运 行 后 屏幕 显示 界面 如 图 9-15 所 示 。 


In [3]: textFile = sc.textFile("hdfs://master:9000/user/hduser/wordcounUinputW/LICENSE.txt") 
textFile.count() 


ounbl[zm| 执行 结果 显示 289 项 数据 


图 9-15 读 取 HDFS 文件 程序 代码 
0 保存 Notebook 


在 退出 Notebook 之 前 ， 记 得 保存 之 前 的 内 容 ， 如 图 9-16 所 示 。 


cho9- Mozilla Firefox 


Taubsaved) 


dit View Insert Cell Kemel Help Checkpont crgated: 16:05:30 
+ Dy HC code 二 园 ceiroobar 


2. 显示 保存 时 间 


In [2]: © textFile=sc.textFile("file:/usr/local/spark/README.md") 
textFile.count() 


FE @ | localhost:8888/notet 一 i pm 
2Jupyter 1 单 击 “ 保 存 ” 按钮 


In [D: sc.master 


Out[T: vu'local[*]" 


图 9-16 保存 内 容 
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人 ET) 关闭 Notebook 网 页 
保存 完成 后 就 可 以 关闭 Notebook 网 页 了 ， 如 图 9-17 所 示 。 


ch09 - Mozilla Firefox 


Home 


@@ localhost ebooks/cho9.ipy 
U pyte r Ch09 (autosaved) 
File Edit View Insert Cell Kernel Help 


四 | + 向 本 个 yh 叶 HC Code 


9-17 关闭 Notebook 网 页 


打开 IPython Notebook 笔记 本 


本 JJ01 查看 之 前 保存 的 Notebook 


回 到 IPython NotebookHome 网 页 , 我 们 可 以 看 到 之 前 保存 的 ch09.ipynb, 如 图 9-18 所 示 。 


二 Jupyter 


Files Running Clusters 


Selectitems to perform actions on them. 


~ 笑 
DD data 
单 击 ch09.ipynb 打开 Notebook 
DD metastore_db 


图 9-18 查看 之 前 保存 的 Notebook 
人 2 打开 之 前 保存 的 Notebook 
打开 之 后 ， 就 可 以 看 到 之 前 保存 的 Notebook 了 ， 如 图 9-19 所 示 。 
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S Jupyter cho9 wescranes 
File Edit View Insert Cell Kernel Help 


加 | +| x 个 vv HC code J 加 CelToobar 


In[1]: sc.master 

Out[1]: vlocal[*]" 

In [2]: textFile=sc.textFile("file:/usr/local/spark/README.md") 
textFile.count() 

Out[2]: 35 

In [3]: textFile = sc.textFile("hdfs://master:9000/user/hduser/wordcount/input//LICENSE.txt") 
textFile.count() 


OutB]: 289 


9-19 打开 Notebook 


插入 程序 单元 格 


在 IPython Notebook 输入 程序 代码 的 文本 框 称 为 程序 单元 格 (Cell)， 我 们 可 以 在 单元 格 
之 前 或 之 后 插入 新 的 单元 格 。 


GBTo1 插入 程序 单元 格 的 方式 
有 3 种 方式 可 用 于 插入 单元 格 (参考 图 9-20) 。 


@ 利用 Insert 一 Insert Cell Above 菜单 在 当前 单元 格 之 前 插入 单元 格 。 
@ 利用 Insert 一 Insert Cell Below 菜单 在 当前 单元 格 之 后 插入 单元 格 。 
@ 单 击 “+” 图 标 ， 在 当前 单元 格 之 后 插入 单元 格 。 


二 JUpyter choe wasaaro 


Fie Edt Vew nset Cel Kemel Hep 在 当前 单元 格 之 前 插入 单元 格 
el +|x i | ColToobar 
在 当前 单元 格 之 后 插入 单元 格 


In [DT]: sc.master 
OutI[1]: u'local[*]' 


In [2]: © textFile=sc.textFile("file:/usr/local/sparK/README.md") 
textFile.count() 


Out[2]: 95 


图 9-20 插入 单元 格 的 方法 示意 图 


185 


寿 ;， Python+Spark 2.0+Hadoop 机 器 学 习 与 大 数据 实战 


《02 新 建 程序 单元 格 
我 们 选择 Insert 一 Insert Cell Above 菜单 项 ， 在 当前 单元 格 之 前 插入 单元 格 ， 如 图 9-21 所 示 。 


FS Jupyter cho9 wares 


File Edit View Insert Cell Kernel Help 


日 + 3 外 可 个 由 H 国 C code 二 加 CelTool 


| 一 一 | 新 奸 的 程序 单元 格 


In [1]: sc.master 


Out[1]: u'local[*]" 


9-21 插入 单元 格 


加 入 注释 与 设置 程序 代码 说 明 标 题 
在 IPython Notebook 中 ， 我 们 可 以 加 入 批注 来 说 明 程 序 的 功能 。 


To1 输入 注释 
输入 注释 内 容 后 要 在 前 面 加 入 #， 如 图 9-22 所 示 。 


In[1]: sc.master 


Out[1]: u"local[*]" 


图 9-22 输入 注释 


02 设置 为 标题 
按照 图 9-23 的 步骤 将 之 前 输入 的 注释 设置 为 标题 。 


二 JuUpPyter choe onaescnaroes 
File Edit View Insert Cell Kemel Help 


四 二 3 多 个 业 Hc 


| In []: 


In[1]: sc.master 


2. 单 击 下 三 角 按钮 


Out[1]: u'local[*]" 


图 9-23 设置 为 标题 


186 


第 9 章 在 IPython Notebook 运行 Python Spark 程序 全 


C303 使 用 MarkDown Heading 的 说 明 ( 见 图 9-24 ) 


Use markdown headings 


Jupyier no longer uses special heading cels. Instead, wiie your headings in Markdown cells using # characters: 


## Thisisalevel 2 heading 


图 9-24 使 用 MarkDown Heading 的 说 明 
G04 运行 程序 代码 


设置 为 Heading 标题 后 ， 我 们 可 以 看 到 字体 变 大 了 ， 青 按 Shift + Enter 组 合 键 即 可 运行 ， 
如 图 9-25 所 示 。 


二 JUPyter cho9 woscranoes 


Fie Edt Vew Insert Cel Kemel Hep 


+ Enter 组 合 


Out[1]: | u'local[*]" 


9-25 ”运行 程序 代码 


DTI05 设置 完成 后 的 标题 ( 见 图 9-26 ) 


TS JUpPYter choe wescranoes 
File Edit View Insert Cell Kernel Help 
B+ x 人 mB 个 vy HC co | 
设置 完成 后 的 标题 
< 一 7 二 
运行 模式 
In[1]: sc.master 
Out[1]: uv'local[*]’ 


图 9-26 设置 完成 后 的 标题 
按照 之 前 的 步骤 输入 标题 
按照 之 前 的 步骤 1~5 输入 标题 ， 完 成 后 如 图 9-27 所 示 。 这 样 我 们 可 以 看 到 每 一 段 程序 代 
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码 都 有 标题 说 明 ， 让 整个 IPython Notebook 更 清楚 明了 。 


二 Jupyter choe woeroes 


Fi Ef Vew Inset Col Kemel Hep 


B+ sb 个 业 HC ce J | celToobar 
运行 模式 
In[k scmaster 


Ou ulecal["] 


读 取 本 地 文件 


In BE textFile=sc.textFile("file:/usr/local'spark/README.md") 
textFlle.count) 


DurDF 95 


读 取 HDFS 文 件 


In BF textFle = sc.textAle("hdfs://master:9000/user/hduser/wordcount/inpuU//LICENSE. be”) 
textFile.countl) 


OurB} 289 


图 9-27 继续 输入 标题 


关闭 IPython Notebook 


G01 关闭 浏览 器 


如 果 打 开 了 多 个 Notebook， 建 议 逐 个 关闭 ， 而 不 要 直接 关 掉 浏览 器 。 因 为 关闭 Notebook 
时 ， 如 果 内 容 已 经 修改 而 未 保存 ， 系 统 会 提醒 是 否 确定 要 退出 ， 如 图 9-28 所 示 。 如 果 直 接 关 
闭 了 浏览 器 ， 系 统 就 不 会 询问 了 。 


€ @ localhost:8888/no 


This page 1s asking you to confirm that you want to leave - data you have 
entered may not be saved. 


stay on Page | lea 


9-28 ”关闭 浏览 器 


Dl02 关闭 IPython Notebook 
关闭 浏览 器 后 回 到 “终端 ”程序 界面 , 可 以 按 Ctrl + C 组 合 键 关闭 IPython Notebook 程序 ， 
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过 程 如 图 9-29 所 示 。 


hduser@master: ~/pythonwork/ipynotebook 


hduser@master :~/pythonwork/ipynotebook$ PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DR 
otebook” pyspark 
okApp] Serving notebooks from local directory: /home/hduse| 


] 6 active kernels 
The Jupyter Notebook is running at: 


http://Localhos 


App] Use Control-C to stop this server and shut down all 
ce to skip confirmation). 

4:55.133 NotebookApp] interrupted 

lserving notebooks from local directory: /hone/hduser/pythonwork/ipynotebook 
6 active kernels 

he Jupyter Notebook is runnin 
IShutdown this notebook server 


8 按 Ctrl+C 组 
: resuming operation... 合 键 ， 输入 y 


localho 


tm lo Bnswer for 


图 9-29 关闭 Notebook 


使 用 IPython Notebook 在 


Hadoop YARN-client 模式 运行 


接 下 来 ， 我 们 将 使 用 IPython Notebook 在 Hadoop YARN-client 模式 执行 Spark 程序 。 
人 EXO) 启动 IPython Notebook 运行 在 Hadoop YARN-client 模式 

在 “终端 ”程序 中 输入 下 列 命令 : 
> 启动 Hadoop cluster 


参考 第 8.6 节 的 内 容 ， 先 启动 master、datal 、data2、data3， 然 后 执行 start-all.sh。 


start-all.sh 


> 切换 ipynotebook 工作 目录 
cd ~/pythonwork/ipynotebook 


> IPython Notebook 运行 在 Hadoop YARN-client 模式 


PYSPARK_ DRIVER PYTHON=ipython PYSPARK DRIVER _ PYTHON OPTS="notebook" 
HADOOP_CONF _IR=/usr/local/hadoop/etc/hadoop MASTER=yarn-client pyspark 


按 Enter 键 后 会 启动 浏览 器 ， 这 时 显示 IPython Notebook 界面 ， 如 图 9-30 所 示 。 
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duser@master:~/pythonwork/ipynotebook$s PYSPARK_DRIVER_PYTHON=ipython PYSPARK_D® 
otebook" HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop MASTER: 


以 


:sg — 打开 IPython 
9 Notebook 界 


[I € @ localhost:s8a8/treel © |[Q search 
2Jupyter 


Fies Running Clusters 
Selectitems to perform actons on them. 
Tai ~ 丝 
口 Odata 
口 DO metastore_ db 
一 单 击 ch09.ipynb 
DO |§ chogipynb 


图 9-30 ”启动 Python Notebook 运行 在 Hadoop YARN-client 模式 


人 2 全 部 重新 执行 Notebook 程序 代码 


打开 ch09 Notebook 之 后 ， 可 以 依次 选择 Cell 一 Run All 菜单 选项 ， 全 部 重新 运行 
Notebook 程序 代码 ， 如 图 9-31 所 示 。 


Ss Jupyter Ch09 (autosaved) 
File Edit View Insert | cor | Kemel Help 


四 + 外 四 | 个 | 下 Run Cells 回 
Run Cells and Select Below 


运行 模式 
图 9-31 全 部 重新 执行 Notebook 程序 代码 
人 3 程序 代码 运行 中 ( 见 图 9-32 ) 


Run All Above 


JUupyter chog wasmom 
File Edit View Insert Cell Kernel Help 


四 + x 外 vc code 二 加 | CelToobar 


运行 模式 
程序 代码 运行 中 或 尚未 运行， 
都 会 出 现 星 号 


图 9-32 程序 代码 运行 中 
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04 程序 代码 运行 完成 ( 见 图 9-33 ) 


TS JupYyter choe wrescnanes 
File Edit View Insert Cell Kemel 


四 | 十 3 机 了 个 业 HH 国 C Code 


Sm Zn 
运行 模式 
In [1]: sc.master 
Out[1]: 当前 的 运行 模式 是 yarn-client 


9-33 ”程序 代码 运行 完成 


本 TI05 在 Hadoop Web 界面 查看 pyspark App 


现在 我 们 已 经 在 Hadoop YARN 运行 了 pyspark, 所 以 可 以 在 Hadoop Web 界面 看 到 这 个 
应 用 程序 (Application)。 请 按照 图 9-34 所 示 的 步骤 打开 Hadoop Web 界面 。 


1. 网 址 栏 输入 http://localhost:8088/ 


(Eloa All Applications 


2. 单 击 Applications 链接 
Y Cluster Cluster Mi 


A 后 “| Apps Apps Apps Containers Memory Memory Memory VCores VCores VCores Actve Decommissione 
oes ‘Submitted Pending Running Completed Running Used Total Reserved Used Total Reserved Nodes Nodes 
NE 证 2 2 6 6GB 24GB 0B 6 24 0 9 Cal 
NEW_SAVING 
SUBMITTED Show 20 -lenties Search: 
ACCEPTED 
BUNNING -User 。 Applcation Queve StartTime FnshTime suate 2 FinalStatus progress 4 
Er ID Name a n me stat 5 progress 


FALED 


-rr anplication 1464332178141 0004 hduser_Pysparkshell SPARK___ defauk_Fr,27 NA RUNNING_ UNDEFINED. 


Scheduler a 
Too 3. 在 此 就 可 以 查看 PySparkShell 应 用 程序 


图 9-34 在 Hadoop Web 界面 查看 pyspark App 


[1 


CFT06 关闭 IPython Notebook 


关闭 浏览 器 后 回 到 “终端 ”程序 的 界面 ， 按 Ctrl + C 组 合 键 来 关闭 IPython Notebook 程 
序 ， 如 图 9-35 所 示 。 
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2: App] The Jupyter Notebook is running at: http://Locathos| 
8/ 
I 16:23;41.911 NotebookApp] Use Control-C to stop this server and shut down all| 
kernels (twice to skip confirmation). 

I 16:25;44.924 NotebookApp] Kernel started: 4alca6gb2-389e-4d65-864d-9c146ae97bf| 


leer/is 16:25:48 WARN NativeCodeLoader: Unable to load native-hadoop Library fo 
your platform... using builtin-java classes where applicable 
6/07/18 16:25:52 WARN YarnClientschedulerBackend: NOTE: SPARK_WORKER_MEMORY is 
eprecated. Use SPARK_EXECUTOR_MEMORY or --executor-memory through spark-submit 
nstead. 
6/07/18 16:25:52 WARN YarnClientschedulerBackend: NOTE: SPARK_WORKER_CORES is d| 
precated. Use SPARK_EXECUTOR_CORES or --executor-cores through spark-submit ins| 
‘ead. 

2 kApp] Tineout waiting for kernel_info reply from 4alcagbz| 
386e-4d65-864d-9c146ae97bf1 
p] Saving file at /che9.ipynb 
Saving file at /che9.ipyn) 


按 Ctrl + C 组 合 键 


5 Note p 
erving notebooks from Local directory: /home/baddSer/pythonwork/tpynotebook 
active kernels 

he Jupyter Notebook is runn: 
hutdown this notebook serve! 


Tlocalhost:8888/ 
No answer for 5s: resuning operatio! 


9-35 关闭 IPython Notebook 


使 用 IPython Notebook 在 Spark 
Stand Alone 模式 运行 


人 0) 启动 Spark Stand Alone cluster 


在 “终端 ”程序 中 输入 下 列 命令 ， 启 动 Spark Stand Alone cluster。 


/usr/local/spark/sbin/start-all.sh 


运行 后 屏幕 显示 界面 如 图 9-36 所 示 。 


Ihduser@master:~$ /usr/local/spark/sbin/start-all.sh 

starting org.apache.spark.deploy.master.Master, logging to /usr/local/spark/sbi 
/../logs/spark-hduser -org.apache. spark.deploy.master .Master-1-master .out 

Idatal: starting org.apache.spark.deploy.worker .Worker, logging to /usr/local/sp: 
rk/sbin/../Logs/spark-hduser-org.apache.spark. deploy.worker .Worker-1-datal.out 
Idata2: starting org.apache.spark,deploy.worker .Worker, logging to /usr/local/sp: 
rk/sbin/../Logs/spark-hduser-org.apache. spark. deploy.worker .Worker-1-data2.out 
data3: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/sp: 
rk/sbin/.. /logs/spark-hduser-org. apache. spark. deploy.worker .Worker -1-data3.out 


图 9-36 启动 Spark Stand Alone cluster 


本 D02 启动 IPython Notebook 运行 在 Spark Stand Alone 模式 
在 “终端 ”程序 中 输入 下 列 命令 : 


> 切换 到 ipynotebook 工作 目录 
cd ~/pythonwork/ipynotebook 
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> 运行 IPython Notebook 以 使 用 Spark 


PYSPARK DRIVER PYTHON=ipython PYSPARK DRIVER PYTHON OPTS="notebook" MASTER= 
spark://master:7077 pyspark --num-executors 1 --total-executor-cores 2 
--executor-memory 512m 


按 Enter 键 后 就 会 启动 浏览 器 ， 如 图 9-37 所 示 为 IPython Notebook 界面 。 


duser@master :~$ cd ~/pythonwork/ipynotebook a A > 

duser@master thonwork /ipynotebook$ PYSPARK_DRIVER_PYTHON=ipython PYsPARK_ 了 1. 输入 命令 ， 按 
A notebook” MASTER=spark://master:7677 pyspark --nun-executors Enter 键 

--totaL-executor-cores 2 --executor-menory 512m nter 


STII NOEED5ORIPP 
r/pythonwork/ipynotebook 
[I 16:30:47.328 Notebooka 


€ localhost.s8aa/tree © |[Q search 2. 打开 IPython 
pe Notebook 界面 
jupyter 

Fles 。 Runnng Clusters 


Soloct toms to porform actions on thom. 


口 Odata 


st 3. 单 击 ch09.ipynb 
| 
图 9-37 IPython Notebook 界面 


人 3 全 部 重新 执行 Notebook 程序 代码 


打开 ch09 Notebook 之 后 ， 可 以 依次 选择 Cell 一 Run All 菜单 选项 ， 全 部 重新 执行 
Notebook 程序 代码 ， 如 图 9-38 所 示 。 


TS Jupyter choe wcrcs 


ee 
Fie Edt View msor [oo | Kemel Help 单 击 Cell 


+ xD 不 vy Run Cells 国 | Cell 
Run Cells and Select Below 
-Run Cells and InsertBelow 一 


si | 
运行 模式 Run All Above 

图 9-38 全 部 重新 执行 Notebook 程序 代码 
G04 程序 代码 运行 完成 ( 见 图 9-39 ) 


单 击 Run All 
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TS Jupyter cho9 weeasaom 


Fie Edt Vew Inser Cael Kemel Help Ph 


B+ x 人 omD 人 rv HC Cd 革 | cerroobar 


运行 模式 
Jn [1]: sc.master 


outlll 当 行 模式 是 spark://master:7077 
读 取 本 地 文件 


In [2]: © textFile=sc.textFile("file:/usr/local/spark/README.md") 
textFile.countO) 


Out[l2]: 9%5 


9-39 程序 代码 运行 完成 
人 5 查看 Spark Standalone Web UI 界面 


按照 如 图 9-40 所 示 的 步骤 查看 Spark Standalone Web UI 界面 , 就 可 以 看 到 当前 正 运 行 的 
应 用 程序 PySparkShell。 


Monilla Flre 


Spark Master at spark:/.. x* a 


EE 


在 浏览 器 中 输入 http://master:8080/ 
Spa 1s1 Spark Master at spark: 
URL: spark//master:7077 
REST URL: spark//master-6066 /cuwsier mooe) 
ise: 3 Tolal 2 Used 
.0 MB Total, 1024.0 MB Used 
1 Running, 0 Completed 
,0 Completed 当前 正在 运行 的 应 1 
Stew ANE 当前 正在 运行 的 应 用 程序 
Workers 
Worker ld Addross State Cores 
‘worker-201605271655: 192.168.56.101-44083 192.168.56.101:44083 ALIVE 1(0Us 
Worker-2( 92.168.56.103-43316 192.168.56.103:43316 ALNE 1(1U: 
Worker-2( 65329-192.168.56.102-34487 192.168.56.102:34487 ALIVE 1(1U: 
Running Applications 
Application ID Memory per Node ‘Submitted Time 
app-20160527170111-0000 5l20MB 20160527 17.01:11 


图 9-40 查看 Spark Standalone Web UI 界面 


整理 在 不 同 的 模式 运行 IPython 


Notebook 的 命令 


后 续 章 节 为 了 让 大 家 更 容易 理解 Spark， 我 们 使 用 IPython Notebook 做 示范 ， 在 此 整理 
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不 同 的 模式 运行 Python Notebook 命令 。 读 者 可 以 选择 自己 要 运行 的 模式 。 
9.9.1 在 Local 启动 IPython Notebook 


在 “终端 ”程序 中 输入 下 列 命令 ， 进 入 IPython Notebook 交互 式 界面 。 
> 切换 ipynotebook 工作 目录 


> 运行 IPython Notebook 以 使 用 Spark 


9.9.2 在 Hadoop YARN-client 模式 启动 IPython Notebook 


> 启动 hadoop cluster 


先 在 VirtualBox 启动 master、datal、data2、data3 虚拟 机 ， 然 后 在 master“ 终 端 ” 程 序 
中 执行 start-all.sh。 


> 在 Hadoop YARN-client 模式 运行 IPython Notebook 


9.9.3 在 Spark Stand Alone 模式 启动 IPython Notebook 


> 启动 hadoop cluster 


> 启动 Spark Stand Alone cluster 


> 在 Spark Stand Alone 模式 启动 IPython Notebook 
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ET 


本 章 我 们 介绍 了 Anaconda 的 安装 ， 并 且 示 范 使 用 IPython Notebook 在 不 同 模式 下 运行 、 
读 取 本 地 与 HDFS 文件 , 并 且 执行 的 命令 与 结果 都 可 以 存储 在 IPython Notebook 文件 中 。 接 
下 来 ， 我 们 将 使 用 IPython Notebook 介绍 Spark 基本 功能 RDD。 
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Python Spark RDD 


Spark 的 核心 是 RDD (Resilient Distributed Dataset) ， 即 
弹性 分 布 式 数据 集 ， 是 由 AMPLab 实验 室 提 出 的 概念 ， 属 于 
-种 分 布 式 的 内 存 系统 数据 集 应 用 。Spark 的 主要 优势 来 自 
RDD 本 身 的 特性 ，RDD 能 与 其 他 系统 兼容 ， 可 以 导入 外 部 存 
储 系统 的 数据 集 ， 例 如 HDFS、HBase 或 其 他 Hadoop 数据 源 。 


寿 ; Python+Spark 2.0+Hadoop 机 器 学 习 与 大 数据 实战 


5 app 的 特性 | 


> RDD 的 3 种 基本 运算 
在 RDD 之 上 ， 可 以 施加 3 种 类 型 的 运算 ， 如 表 10-1 所 示 。 
表 10-1 RDD 的 基本 运算 


RDD 运算 类 型 说明 

。RDD 执行 “转换 ”运算 的 结果 ， 会 产生 另外 一 个 RDD 

。RDD 具有 lazy 特性 ， 所 以 “转换 ”运算 并 不 会 立刻 实际 执行 ， 等 到 执行 “动作 ” 运 
算 才 会 实际 执行 


“转换 ”运算 


Transformation 


。RDD 执行 “动作 ”运算 后 不 会 产生 另外 一 个 RDD， 而 是 会 产生 数值 、 数 组 或 写 入 文 
件 系统 
。RDD 执行 “动作 ”运算 时 会 立刻 实际 执行 ， 并 且 连 同 之 前 的 “转换 ”运算 一 起 执行 


“持久 化 ” 对 于 那些 会 重复 使 用 的 RDD， 可 以 将 RDD“ 持 久 化 ”在 内 存 中 作为 后 续 使 用 ， 以 提 
Persistence 高 执行 性 能 


“动作 ”运算 


Action 


RDD 通过 “转换 ”运算 可 以 得 出 新 的 RDD， 但 Spark 会 延迟 这 个 “转换 ”动作 的 发 生 时 
间 点 。 它 并 不 会 马上 执行 , 而 是 等 到 执行 了 Action 之 后 才 会 基于 所 有 的 RDD 关系 来 执行 转换 。 
示意 图 如 图 10-1 所 示 。 


动作 1 
转换 3 
输出 
输入 RDD2 
数据 


图 10-1 RDD 转换 示意 图 
图 10-1 的 说 明 如 下 : 


@ 输入 数据 ， 执 行 “ 转 换 1” 运算 产生 RDD1， 此 时 不 会 实际 执行 ， 只 记录 操作 命令 。 
@ RDDI1 执行 “转换 2” 运 算 产生 RDD2， 此 时 不 会 实际 执行 ， 只 记录 操作 命令 。 
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@ RDD2 执行 “转换 3” 运算 产生 RDD3， 此 时 不 会 实际 执行 ， 只 记录 操作 命令 。 

@ RDD2 执行 “转换 4” 运 算 产生 RDD4， 此 时 不 会 实际 执行 ， 只 记录 操作 命令 。 

@ RDD3 执行 “动作 1” 运 算 ， 此 时 会 实际 执行 : “转换 1”+“ 转 换 2”+ “转换 
3”+ “动作 1”， 产 生 输 出 数据 1。 

@ RDD4 执行 “动作 2” 运 算 ， 此 时 会 实际 执行 : “转换 1”+ “转换 2”+ “转换 
4”+ “动作 2”, 产生 输出 数据 2( 如 果 之 前 已 经 先 执行 了 “动作 1” 运算, 那么 “ 转 
换 1”+ “转换 2” 已 经 实际 执行 完成 ， 在 此 只 会 实际 执行 “转换 4”+ “动作 2”， 
以 节省 运行 时 间 ) 。 


> Lineage 机 制 具备 容错 的 特性 


RDD 本 身 具 有 Lineage 机 制 。 它 会 记录 每 个 RDD 与 其 父 代 RDD 之 间 的 关联 ， 还 会 记录 
通过 什么 操作 才 由 父 代 RDD 得 到 该 RDD 的 信息 。 

RDD 本 身 的 immutable( 不 可 变 ) 特性 ， 再 加 上 Lineage 机 制 ， 使 得 Spark 具备 容错 的 特 
性 。 如 果 某 节点 的 机 器 出 现 了 故障 ， 那 么 存储 于 这 个 节点 上 的 RDD 损毁 后 就 会 重新 执行 一 连 
串 的 “转换 ”命令 , 产生 新 的 输出 数据 , 以 避免 因为 特定 节点 的 故障 而 造成 整个 系统 无 法 运行 
的 问题 。 
> RDD 命令 整理 

本 章 的 RDD 命令 已 整理 在 本 书 的 博客 文章 中 。 当 练习 安装 时 ， 可 以 复制 博客 文章 中 的 命 
令 ， 然 后 粘贴 到 “终端 ”程序 中 。 这 样 既 可 节省 打字 的 时 间 ， 也 不 用 担心 打 错 字 〈 无 法 在 
VirtualBox 虚拟 机 的 _ Ubuntu“ 终端” 程序 中 执行 复制 /粘贴 操作 时 ， 参 考 第 3.9 节 的 说 明 ， 设 
置 好 VirtualBox 的 共享 剪贴 板 ) 。 本 书 博客 的 网 址 为 : 


http://blog.sina.com.cn/hadoopsparkbook 


开启 IPython Notebook 


为 了 让 大 家 更 容易 理解 RDD 运算 ， 我们 使 用 IPython Notebook 做 示范 。IPython 
Notebook 具有 互动 性 ， 可 以 从 中 看 到 命令 运行 后 的 结果 。 读 者 可 以 参考 第 9.9 节 在 不 同 模式 
启动 IPython Notebook 的 情况 。 本 节 我 们 只 示范 在 本 地 模式 运行 。 


人 01) 在 local 模式 运行 IPython Notebook 来 使 用 Spark 
在 “终端 ”程序 中 输入 下 列 命令 : 


> 切换 ipynotebook 工作 目录 
cd ~/pythonwork/ipynotebook 
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> 运行 IPython Notebook 来 使 用 Spark 
PYSPARK DRIVER PYTHON=ipython PYSPARK DRIVER PYTHON OPTS="notebook" pyspark 


按 Enter 键 后 就 会 启动 浏览 器 , 默认 的 网 址 是 http://localhost:8888。 图 10-2 所 示 的 界面 是 
iPython NoteBook 界面 。 


ythonwork/ipynoteboo 今 
rt 令 ， 按 Enter 键 


p] urtttng notebeok server cookte secrer te /run/user/| 
:ookie_secret 
khpp] Serving notebooks fron local dtrectory: /hone/hduse| 


QQ 六 自 旦 挤 


€ @ localhost. tree ~C 图 " 


2Jupyter 


打开 iPython Notebook 界面 
Flos | Running 。 clusters 


lSelect items to perform actions on them. 


Upload New» © 


图 10-2 打开 IPython Notebook 界面 


人 2 新 建 一 个 Python Notebook ( 见 图 10-3 ) 


| 全 @loclhost -< e QQ 和信 于 
= Jupyter 
Fre Rumrg ouston 


Seiect ems lo perorm actona on em 


~ 


图 10-3 新 建 一 个 Python Notebook 
B03 开始 输入 程序 代码 (如 图 10-4 ) 


ocalhost 


> Jupyter Untiled vast cnocrport: a tow socons am lensaveg cnargos) 


图 104 开始 输入 程序 代码 
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基本 RDD“ 和 转换 ” 运 


人 ET) 创建 intRDD 


创建 RDD 最 简单 的 方式 就 是 使 用 SparkContext 的 parallelize 方法 ， 命 令 如 下 : 
> 创建 intRDD 


intRDD = sc.parallelize(List(3,1, 2, 5, 5)) 


先 定义 intRDD， 然 后 使 用 parallelize 方法 输入 一 个 List 的 参数 ， 以 创建 ntRDD。 不 过 这 
也 是 一 个 “转换 ”运算 ， 所 以 不 会 马上 实际 执行 。 
> intRDD 转换 为 List 


intRDD.collect () 


intRDD 执行 collectO 后 会 转换 为 List。 这 是 一 个 “动作 ”运算 ， 所 以 会 立刻 执行 ， 运 行 后 
的 屏幕 显示 界面 如 图 10-5 所 示 。 


In [1]: IntRDD = sc.parallellze([3,1, 2, 5, 5]) 
IntRDD.collect0) 


Outl1}: [3, 1, 2, 5, 5] 


图 10-5 创建 intRDD 
D02 创建 stringRDD 


parallelize 方法 除了 可 以 创建 mt 的 RDD， 也 可 以 创建 String 的 RDD， 命 令 如 下 : 
> 创建 stringRDD 


stringRDD = sc.parallelize(List ("Apple","Orange","Banana","Grape", "Apple")) 


运行 后 ， 屏 幕 显示 界面 如 图 10-6 所 示 。 


In [2]: stringRDD = sc.parallelize(["Apple", "Orange" "Banana","Grape","Apple])”” | 1. 创建 StringRDD 
stringRDD.cohlect() 


Out[2]: ['Apple', ‘Orange', ‘Banana', 'Grape', 'Apple'] ee | 


2. 将 StringRDD 


转换 为 List 


图 10-6 创建 stringRDD 
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C303 map 运算 介绍 


map 运算 可 以 通过 传 入 的 函数 将 每 一 个 元 素 经 过 函数 运算 产生 另外 一 个 RDD， 如 图 10-7 
所 示 ，RDD 通过 传 入 的 函数 addOne 将 每 一 个 元 素 加 1， 从 而 产生 另外 一 个 RDD。 


RDD | map (addOne) | 产生 的 RDD 


图 10-7 map 运算 示意 图 
在 Spark 的 map 运算 中 ， 可 以 使 用 两 种 语句 ， 具 名 函数 和 匿名 函数 。 
D04 map 运算 使 用 具名 函数 


> 编写 addOne 圾 数 
先 定义 addOne 函数 并 传 入 参数 x， 此 函数 会 将 x 加 1 再 返回 。 


> 将 郑 数 名 称 addOne 作为 参数 传 入 map 商 数 


(1) 将 函数 名 称 addOne 作为 参数 传 入 map 命令 ，map 命令 会 将 每 一 个 元 素 加 1， 从 而 
产生 另外 一 个 RDD。 

(2) 因为 map 是 一 个 “转换 ”运算 , 所 以 不 会 马上 执行 。 为 了 方便 示范 , 我 们 加 上 collectO) 
这 个 “动作 ”运算 使 之 立即 执行 。 


在 Python Notebook 输入 指令 , 按 Shift + Enter 组 合 键 运行 , 屏幕 显示 界面 如 图 10-8 所 示 。 
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In [3]: | def addOne(x): 1. 创建 具名 函数 
return (x+1) 


intRDD.maf(addone} coliect0 2. map 传 入 函数 名 称 作为 参数 


2 CHEE te 执行 结果 将 数字 加 1 


10-8 使 用 具名 函数 
以 上 运行 结果 是 将 原 数组 [3,1,2, 5, 5] 中 的 每 一 个 数字 都 加 1 而 变 成 的 [4,2,3, 6, 6] 。 
JI05 map 运算 使 用 匿名 函数 


map 运算 可 以 使 用 更 简单 的 语法 ， 即 匿名 函数 ， 命 令 如 下 : 


intRDD.map(x => x + 1) .collect() 


如 上 述 命令 ，map 会 传 入 (x=>x+1) 作 为 参数 ， 这 是 lambda 语句 的 匿名 函数 (Canonymous 
functions)。 其 中 ，x 是 传 入 参数 ，x+1 是 要 执行 的 命令 ， 告 诉 map 运算 每 一 个 元 素 都 要 加 1。 
在 iPython Notebook 输入 程序 代码 , 按 Shift+ Enter 组 合 键 运行 , 屏幕 显示 界面 如 图 10-9 所 示 。 


In [4]: intRDD.maiambdal x:x+ 1).collect() 
lambda 语句 匿名 函数 
10-9 使 用 匿名 函数 


Out[4]: [4, 2, 3, 6, 6] 
运行 后 ， 具 名 函数 与 匿名 函数 语句 的 执行 结果 完全 相同 ， 都 是 将 [3,1, 2, 5, 5] 中 的 每 一 个 
数字 都 加 1 后 变 成 [4, 2, 3, 6, 6] 。 


G706 具名 函数 或 匿名 函数 的 使 用 时 机 


何 时 使 用 具名 函数 与 匿名 函数 呢 ? 

(1) 简单 的 功能 使 用 匿名 函数 ， 复 杂 的 功能 使 用 具名 函数 。 通 常 如 果 函 数 的 功能 很 简单 ， 
例如 本 范例 只 是 加 1， 使 用 匿名 函数 会 让 程序 语句 简洁 得 多 ， 而 且 让 程序 代码 更 易 读 。 如 果 函 
数 的 功能 过 于 复杂 ， 就 很 难 使 用 匿名 函数 来 表达 了 ， 使 用 具名 函数 会 比较 清楚 。 

(2) 重复 使 用 的 功能 ， 使 用 具名 函数 。 如 果 此 函数 在 很 多 地 方 重复 使 用 ， 建 议 使 用 具名 
函数 。 因 为 需要 修改 函数 功能 时 ， 只 需 修改 函数 定义 即 可 。 如 果 是 匿名 函数 ， 我 们 就 必须 修改 
好 几 个 地 方 。 


人 7 map 字符 串 运算 
我 们 也 可 以 针对 字符 串 RDD 执行 map 运算 ， 如 图 10-10 所 示 。 
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字符 串 元 素 前 面 加 上 


In [7]: stringRDD.map(lambda x: "fruit:"+x).collect() 


| 将 stringRDD 所 有 


fruit: 来 产生 另 一 个 
，'"fruit:Apple'] RDD 


Out[7]: ['fruit:Apple', 'fruit:Orange', 'fruit:Banana', "fruit:Grape 


10-10 ”map 字符 串 运算 


从 以 上 界面 可 以 看 出 ， 原 来 的 ["Apple", "Orange", "Banana","Grape","Apple"] 全 部 加 上 了 
fruit:， 从 而 变 成 ['fruit:Apple', 'fruit:Orange', 'fruit:Banana', 'fruit:Grape', 'fruit:Apple']。 


08 filter 数字 运算 
filter 可 以 用 于 对 RDD 内 每 一 个 元 素 进行 筛选 ， 并 产生 另外 的 RDD。 
> 让 intRDD 短 选 数字 小 于 3 ( 见 图 10-11 ) 


In [8]: intRDD.filter(lambda x:x< 3).collect() 
Out[8]: [1, 2] 


图 10-11 让 intRDD 筛选 数字 小 于 3 
原来 的 数组 为 [3,1, 2, 5, 5]， 因 为 筛选 数字 小 于 3， 所 以 结果 是 [1 , 2]。 
> intRDD 筛选 数字 等 于 3 ( 见 图 10-12 ) 


In [28]: intRDD.filter(lambda x:x== 3).collect() 
Out[28]: [3] 


图 10-12 ”筛选 数字 等 于 3 
> intRDD 筛选 数字 在 1 到 5 之 间 ( 见 图 10-13 ) 


In [26]: intRDD.filter(lambda x: 1<xand x<5 ).collect() 
Out[26]: [3, 2] 


图 10-13 ”第 选 数 字 在 1 到 5 之 间 


原来 的 数组 为 [3,1, 2, 5, 5]， 因 为 筛选 1 到 5 之 间 的 数字 ， 所 以 结果 是 [3 , 2]。 
> intRDD 第 选 数字 大 于 等 于 5 或 小 于 3 ( 见 图 10-14 ) 


In [18]: intRDD.filter(lambda x:x>=5 or x<3).collect() 
Out[18]: [1, 2, 5, 5] 


图 10-14 ”第 选 数 字 大 于 等 于 5 或 小 于 3 
原来 的 数组 为 [3,1, 2, 5, 5]， 因 为 筛选 大 于 等 于 5 或 小 于 3 的 数字 ， 所 以 结果 为 [1, 2, 5, 5]。 
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G09 filter 字符 囊 运算 
我 们 也 可 以 针对 字符 串 RDD 执行 filter 运算 。 
> 短 选 内 含 ra 的 字符 串 ( 见 图 10-15 ) 


In [S]: stringRDD.filter(lambda x: "ra" In x).collect() 
Out[5]: ['Orange', 'Grape'] 


图 10-15 ”筛选 内 容 ra 的 字符 串 


运行 后 ， 筛 选 结果 为 Orange, Grape。 
fo distinct 运算 
distinct 运算 会 删除 重复 的 元 素 。 
> 删除 intRDD 重复 的 元 素 ( 见 图 10-16 ) 
In [29]: intRDD.distinct().collect() 
Out[29]: [1, 2, 3, 5] 
图 10-16 删除 intRDD 重复 的 元 素 
intRDD 是 [3,1, 2, 5, 5] ， 去 除 重复 数字 后 为 [1,2,3,5]。 
> 删除 stringRDD 重复 的 元 素 ( 见 图 10-17 ) 


In [30]: stringRDD.distinct().collect() 
Out[30]: ["orange'， "Grape'， "Apple'， "Banana'] 


图 10-17 删除 stringRDD 重复 的 元 素 


stringRDD 是 ["Apple", "Orange", "Banana","Grape","Apple"} 去 除 重复 元 素 后 为 【"Orange"， 
"Banana", "Grape","Apple"] 。 


Hi randomSplit 运算 
randomSplit 可 以 将 整个 集合 元 素 以 随机 数 的 方式 按照 比例 分 为 多 个 RDD。 
@ 使 用 randomSplit 将 整个 集合 按照 4:6 的 比例 分 为 两 个 RDD。 


执行 结果 如 图 10-18 所 示 。 


205 


>” Python+Spark 2.0+Hadoop 机 器 学 习 与 大 数据 实战 


In [40]: sRDD=intRDD.randomSplit([0.4,0.0]) 一 一 一 一 一 | 以 随机 数 的 方式 按照 4:6 
的 比例 分 割 为 两 个 RDD 


In [41]: sRDD[O].collect() 
Out[41]: [2, 5] 站 
In [42]: sRDD[I1.collect0 一 --- 


Out[42]: [3, 1, 5] 


图 10-18 randomSplit 运算 
2 groupBy 运算 
groupBy 可 以 按照 传 入 的 匿名 函数 规则 将 数据 分 为 多 个 List。 
> 使 用 groupBy 运算 将 整个 集合 分 成 奇数 与 偶数 ( 见 图 10-19 ) 


In [45]: gRDD=intRDD.groupBy( 
lambda x:"even"If(x%2==0) else "odd" 
).collect() 


使 用 groupBy 运算 将 整 


个 集合 分 成 奇数 与 偶数 


图 10-19 groupBy 运算 


使 用 groupBy 运算 时 , 传 入 的 匿名 函数 为 (lambda x: "even" if (x%2 二 0)else "odd") 以 让 
(x%2 二 0) 判断 传 入 的 数字 除 以 2 的 余数 是 否 为 0， 如 果 是 就 是 偶数 ， 否 则 为 奇数 。 


> 查看 奇数 与 偶数 List ( 见 图 10-20 ) 
以 上 命令 运行 后 会 产生 奇数 与 偶数 两 个 List， 可 以 用 下 列 指令 查看 。 


In [46]: print (gRDD[OJ[O],sorted(gRDD[O]['))) 


("even', [2]) 


In [47]: print (gRDD[1][ol,sorted(gRDD[1][1]) 
('odd', [1, 3, 5, 5]) 


图 10-20 查看 奇数 与 偶数 List 


是 5 zg 个 RDD “转换 "运算 | 


RDD 也 支持 执行 多 个 RDD 的 运算 。 
人 ET) 创建 3 个 范例 RDD 


为 了 示范 多 个 RDD 的 运算 ， 我 们 使 用 下 列 指令 : 
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> 创建 3 个 范例 RDD ( 见 图 10-21 ) 


In [82]: intRDD1 = sc.parallelize([3, 1, 2, 5, 5]) 
intRDD2 = sc.parallelize([5, 6]) 
intRDD3 = sc.parallelize([2, 7]) 


10-21 创建 3 个 范例 RDD 


人 2 union 并 集运 算 
可 以 使 用 下 列 指令 将 intRDD1、intRDD2、intRDD3 进行 并 集运 算 。 
> 使 用 union 哨 数 进行 并 集运 算 〈 见 图 10-22 ) 


In [85]: intRDD1.union(intRDD2).union(intRDD3).collect() 
Out[85]: [3, 1, 2, 5, 5, 5, 6, 2, 7] 


图 10-22 使 用 union 函数 进行 并 集运 算 
人 3 intersection 交集 运算 


可 以 使 用 下 列 指 令 进行 运算 : 
> 将 intRDD1、intRDD2 进行 交集 运算 ( 见 图 10-23 ) 


In [87]: intRDD1.intersection(intRDD2).collect() 
Out[87]: [5] 


图 10-23 进行 交集 运算 
intRDD1 是 [3, 1, 2, 5, 5]， 与 intRDD2 [5, 6] 之 间 的 重复 元 素 只 有 5， 所 以 返回 [5]。 
人 04 subtract 差 集运 算 
可 以 使 用 下 列 指令 进行 运算 : 
> 进行 差 集运 算 ( 见 图 10-24 ) 


In [54]: intRDD1.subtract(intRDD2).collect() 
out[54]: [1，2，3] 


图 10-24 进行 差 集运 算 


intRDD1 是 [3, 1, 2, 5, 3]， 扣 除 与 intRDD2 [5, 6] 重复 的 部 分 5， 结 果 是 [1,2,3]。 
05 cartesian 符 卡 儿 乘积 运算 
可 以 使 用 下 列 指令 进行 运算 : 
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> 进行 cartesian 箭 卡 儿 乘 积 运算 ( 见 图 10-25 ) 


In [92]: print intRDD1.cartesian(intRDD2).collect0) 


[(3, 5), (3, 6), (1, 5), (1, 6), (2, 5), (2, 6), (5, 5), 
(5, 6), (5, 5), (5, 6)] 


图 10-25 ”进行 笛 卡 儿 乘积 运算 


intRDD1 有 5 个 元 素 、intRDD2 有 2 个 元 素 ， 所 以 笛 卡 儿 乘积 运算 后 会 产生 10 (5*2) 组 
数据 。 


基本 “动作 ”运算 


人 EX) 读 取 元 素 


In [96]: intRDD.first() | | 取出 第 1 项 数据 
: 3 


In [94]: intRDD.take(2) | 取出 第 2 项 数据 


Out[94]: [3, 1] 


In [31]: intRDD.takeOrdered(3) 一 从 小 到 大 排序 ， 取 出 前 3 项 
Out[31]: [1, 2, 3] 


In [32]: intRDD.takeOrdered(3,key=lambda x: -Xx)—————— 从 大 到 小 排序 ， 取 出 前 3 项 


Out[32]: [5, 5, 3] 


图 10-26 读 取 元 素 
F302 统计 功能 
还 可 以 将 RDD 内 的 元 素 进行 统计 和 运算， 参考 图 10-27。 
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In [33]: intRDD.stats() 


Out[33]: (count: 5, mean: 3.2, stdev: 1.6, max: 5.9, min: 1.9) 


In [34]: intRDDmin0 
Out[34]: 1 


In [35]: intRDDmax0) 
Out[35]: 5 


In [36]: intRDD.stdev() 
Out[36]: 1.5966966969669661 


In [37]: intRDD.count() 
Out[37]: 5 


In [38]: intRDDsum() 
Out[38]: 16 


In [39]: intRDD.mean() 


Out[l39]: 3.2 


图 10-27 统计 功能 


RDD Key-Value 基本 “转换 ” 运 


Spark RDD 支持 键 值 (Key-Value) 运算 ，Key-Value 运算 也 是 Map/Reduce 的 基础 ， 本 节 
将 介绍 RDD 键 值 的 基本 “转换 ”运算 。 


人 ID) 创建 范例 Key-Value RDD 
为 了 示范 RDD Key-Value 基本 Transformation 运算 ， 先 使 用 下 列 指令 : 


> 创建 范例 Key-Value RDD ( 见 图 10-28 ) 


In [68]: kvRDD1 = sc.parallelize([(3, 4), (3, 6), (5, 6), (1, 2)]) 
kvRDD1.collect() 


Out[68]: [(3, 4), (3, 6), (5, 6), (1, 2)] 


图 10-28 创建 范例 Key-Value RDD 
第 一 个 字段 是 Key, 第 二 个 字段 是 Value。 例如 , 第 一 项 数据 (3,.4), 3 是 key 值 , 4 是 value。 
> 列 出 全 部 key 值 (第 一 个 字段 ， 见 图 10-29 ) 


In [99]: kvRDD1.keys(0).collect0) 
Out[99]: [3, 3, 5, 1] 


图 10-29 列 出 全 部 key 值 
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> 列 出 values 值 (第 二 个 字段 ， 见 图 10-30 ) 


In [101]: kvRDD1.values().collect() 
Out[101]: [4, 6, 6, 2] 


图 10-30” 列 出 values 值 


02 使 用 filter 筛选 key 运算 
可 以 使 用 filter 针对 key 筛选 RDD 内 的 元 素 ， 如 下 列 指令 : 
> 使 用 fiter 筛选 出 key<5 ( 见 图 10-31 ) 


In [104]: kvRDD1.filter(lambda keyValue: keyValue[0] < 5).collect() 
Out[104]: [(3, 4), (3, 6), (1, 2)] 


图 10-31 使 用 filter 筛选 出 key<5 


上 面 kvRDD1: (3, 4), (3, 6), (5, 6), (1, 2) 的 keyValue[0]〈 第 一 个 字段 是 Key 值 ) 小 于 5， 
共有 3 条 数据 (3,4),(3,6),(1,2)。 


03 使 用 filter 筛选 value 运算 
可 以 使 用 filter 针对 value 筛选 出 RDD 内 的 元 素 ， 如 下 列 指令 : 
> 使 用 filter 筛选 出 value<5 ( 见 图 10-32 ) 


In [105]: kvRDD1.fiter(lambda keyValue: keyValue[1] < 5).collect() 
Out[105]: [(3, 4), (1, 2)] 


10-32 ”使 用 filter 筛选 出 value<5 


以 kvRDD1 为 例 , (3, 4), (3, 6), (5, 6), (1, 2) 的 keyValue[1]( 第 二 个 字段 是 Value 值 ) 小 于 $， 
共有 两 项 数据 (3,4),(1,2)。 


本 D04 mapValues 运算 
mapValues 运算 可 以 针对 RDD 内 每 一 组 (KeyValue) 进 行 运算 ， 并 且 产 生 另 外 一 个 RDD。 


> 将 Value 的 每 一 个 值 进行 平方 运算 〈 见 图 10-33 ) 


In [106]: kvRDD1.mapValues(lambda x:x*x).collect() 
Out[106]: [(3, 16), (3, 36), (5, 36), (1, 4)] 


图 10-33 将 Value 的 每 一 个 值 进 行 平方 运算 


以 kvRDD1 为 例 ，(3, 4), (3, 6), (5, 6), (1, 2) 以 value( 第 二 个 字段 〉 进 行 平方 运算 ， 也 就 是 
(3, 4*4), (3, 6*6), (5, 6*6), (1, 2*2); 结果 是 (3,16),(3,36),(5,36).(1,4)。 
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sortByKey 从 小 到 大 按照 key 排序 


可 以 使 用 sortByKey0) 按 照 key 排序 。 传 入 参数 默认 值 是 true， 也 就 是 从 小 到 大 排序 〈 见 图 
10-34 )。 


In [108]: kvRDD1.sortByKey(ascending=True).collect() 


按照 key 值 从 小 到 大 排序 
Outl108]: [(1, 2), (3, 4), (3, 6), (5s, 6)] 


In [111]: kvRDD1.sortByKey0.colledt0 一 一 一 一 一 一 一 一 | 因为 默认 是 true， 所 以 可 
Out[11]: [(1, 2), (3, 4), (3, 6), (5s, 6)] 以 不 传 入 参数 


图 10-34 ”sortByKey 从 小 到 大 按照 key 排序 
306 sortByKey 按照 key 值 从 大 到 小 排序 
按照 key 值 从 大 到 小 排序 ， 只 需要 在 sortByKey 传 入 参数 false 即 可 (参考 图 10-35)。 
In [110]: kvRDD1.sortByKey(ascending=False).collect() | 
Out[110]: [(5, 6), (3, 4), (3, 6), (1, 2)] 


10-35 ”按照 key 值 从 大 到 小 排序 


ER7 reduceByKey 
另外 一 个 很 常见 的 功能 是 reduceByKey， 在 IPython NoteBook 输入 图 10-36 所 示 的 指令 。 


In [113]: kvRDD1.reduceByKey(lambda x,y: x+y).collect() 
Out[113]: [(1，2)，(3，19)，(5，6)] 


图 10-36 输入 指令 
reduceByKey 指令 是 按照 Key 值 进行 reduce 运算 ， 参 考 图 10-37 的 说 明 。 
.reduceByKey((x,y)=>x+y) 
ts 产生 的 RDD ] 。 相同 的 key 值 3， 会 将 

| 10) value 相 加 4+6=10， 
2 所 以 合并 后 是 (3.10)。 

G & > 4 找 不 到 相同 的 key 值 ， 
ms 所 以 (5, 6) 和 (1, 2) 不 会 

合并 。 


OO 
10-37 reduceByKey 命令 运算 范例 的 图 解 
kvRDD1.reduceByKey((x, y)=>x+y) 会 将 具有 相同 Key 值 的 数据 合并 。 合 并 的 方式 是 按照 
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传 入 的 匿名 函数 (xy)=>x+y 相 加 ， 合 并 后 产生 另 一 个 RDD。 以 我 们 的 测试 数据 为 例 : 


(1) 在 kvRDD1 数据 (3, 4), (3, 6), (5, 6), (1, 2) 中 , 第 一 个 字段 是 key、 第 二 个 字段 是 value。 

(2) reduceByKey 会 寻找 相同 的 key 合并 , 测试 数据 中 key 是 3, 有 2 组 数据 (3, 4), (3, 6)。 

(3) 经 过 reduceByKey 运算 后 , 会 将 这 2 项 数据 (3, 4), (3, 9) 合 并 为 1 条 (3,10), 合并 的 方 
法 是 将 value 相 加 4+6 = 10。 

(4) 剩 下 的 (5, 6), (1, 2) 没 有 相同 的 key， 所 以 不 变 。 


多 个 RDD Key-Value“ 转 换 ” 运 算 


JI01 Key-Value RDD 范例 
为 了 示范 多 个 RDD Key-Value“ 和 转换” 运算 ， 先 使 用 下 列 指令 : 
> 创建 范例 Key-Value RDD ( 见 图 10-38 ) 


In [7]: kvRDD1 = sc.parallelize([(3, 4), (3, 6), (5, 6), (1, 2)]) | 建 范 要 
kvRDD2 = sc.parallelize([(3, 8)]) 创建 范例 ey 二 
In[119]: KRDD1.collect0 一 一 一 一 | 查看 kvRDD1 


Out[119]: [(3, 4), (3, 6), (5, 6), (1, 2)] 


In[120: KvRDD2.collect0) 一 一 一 一 一 一 | 查看 kvRDD2 
Out[120]: [(3, 8)] 


图 10-38 ”创建 范例 Key-Value RDD 
人 2 Key-Value RDD join 运算 


join 运算 可 以 将 两 个 RDD 按照 相同 的 key 值 join 起 来 , 例如 kvRDD1 join kvRDD2, 如 图 
10-39 所 示 。 


In [122]: kvRDD1.join(kvRDD2).collect() 
Out[122]: [(3, (4, 8)), (3, (6, 8))] 


图 10-39 Key-Value RDD join 运算 
以 上 程序 代码 说 明 如 下 : 


(1) kvRDD1 与 kvRDD2 唯一 相同 的 key 值 是 3。 
(2) kvRDD1 是 (3,4)、(3,6)， 而 kvRDD2 是 (3,8)， 所 以 join 的 结果 如 图 10-40 所 示 。 
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kvRDD1 join kvRDD2 产生 的 RDD 
图 10-40 join 运算 示意 图 


03 Key-Value leftOuterJoin 运算 


另外 一 种 Join 的 方式 是 Left Join 〈 见 图 10-41)。 


In [125]: kvRDD1.leftOuterjoin(kvRDD2).collect() 


Out[125]: [[(1, (2, None)))| (3, (4, 8)), (3, (6, 8)),[(s, (6, None))]] 


leftOuterJoin 多 了 这 两 项 数据 


图 10-41 Left Join 运算 


(1) leftOuterJoin 会 从 左边 的 集合 (kvRDD1) 对 应 到 右边 的 集合 (kvRDD2)， 并 显示 所 


有 左边 集合 (kvRDD1) 中 的 元 素 。 
(2) 如 果 kvRDD1 的 key 值 对 应 到 kvRDD2， 就 会 显示 相同 的 key (3, (4, 8))、(3, (6, 8))。 
(3) 如果 kvRDD1 的 key 值 对 应 不 到 kvRDD2, 就 会 显示 None(5,(6,None))、(1,(2,None))。 


如 图 10-42 所 示 。 


kvRDD1 leftOutJoin kvRDD2 


10-42 ”Left Join 运算 示意 图 
人 4 Key-Value RDD rightOuterJoin 运算 


另外 一 种 Join 的 方式 是 Right Join 〈 见 图 10-43 )。 
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In [127]: kvRDD1.rightOutenrjoin(kvRDD2).collect(0) 
Out[127]: [(3, (4, 8)), (3, (6, 8))] 


图 1043 Right Join 运算 
说 明 如 下 : 


(1) rightOuterJoin 会 从 右边 的 集合 (kvRDD2) 对 应 到 左边 的 集合 (kvRDD1)， 并 显示 
所 有 右边 集合 (kvRDD2) 中 的 元 素 。 
(2) 如 果 kvRDD2 的 key 值 对 应 到 kvRDD1， 就 会 显示 重复 的 key(3, (4, 8))、(3, (6, 8))。 


如 图 10-44 所 示 。 


kvRDD1 rightOuterJoin kvRDD2 


10-44 Key-Value RDD rightOuterJoin 运算 范例 的 图 解 


人 5 Key-Value subtractByKey 运算 


subtractByKey 运算 会 删除 相同 key 值 的 数据 。 例 如 , kvRDD1 subtract kvRDD2, 如 图 10-45 
所 示 。 


In [128]: kvRDD1.subtractByKey(kvRDD2).collect() 
Out[128]: [(1, 2), (5, 6)] 


图 10-45 ”subtractByKey 运算 


以 上 程序 代码 kvRDDI1 数据 (3, 4), (3, 6), (5, 6), (1, 2)， 删 除 与 kvRDD2 具有 相同 key 值 3 
的 项 ， 所 以 只 剩 下 (5, 6) 与 (1,2)， 如 图 10-46 所 示 。 
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kvRDD1 subtractByKey kvRDD2 产生 的 RDD 


国明 一 2 


G9 一 > S2 
PE) 4) 


图 10-46 Key-Value subtractByKey 运算 范例 的 图 解 


10.8 Key-Value“ 动 作 ” 运 


个 Jo01 Key-Value first 运算 


可 以 使 用 图 10-47 中 的 指令 读 取 RDD 部 分 的 数据 。 


In [129]: kvRDD1.first() 获取 第 一 项 数据 


Out[129]: (3, 4) 


In [131]: kvRDD1.take(2) 获取 前 两 项 数据 


Out[131]: [(3, 4), (3, 6)] 


10-47 ”使 用 first 运算 读 取 数据 
人 2 读 取 第 一 项 数据 的 元 素 


使 用 kvRDD1.first() 获取 第 一 项 数据 并 存储 在 kvFirst 变量 中 。 在 Python 中 可 以 使 用 
kvFirst[0] 获取 第 1 个 元 素 、kvFirst[1] 取得 第 2 个 元 素 …… 依 此 类 推 ， 可 参考 图 10-48。 


In [7]: kvFirst=kvRDD1 .first() . 
lst 获取 第 1 项 数据 


Out[7]: (3, 4) 


In [134]: © kvFirst[0] 获取 第 1 项 数据 的 第 1 个 元 素 ， 
Out[134]: 3 也 就 是 Key 值 

站 mg 获取 第 1 项 数据 的 第 2 个 元 素 ， 
Out[135]: 4 也 就 是 Value 值 


10-48 ” 读 取 第 一 项 数据 的 元 素 
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人 03 计算 RDD 中 每 一 个 Key 值 的 项 数 


例如 ，kvRDD1 数据 (3, 4), (3, 6), (5, 6), (1, 2)，key 值 为 3 的 有 两 项 数据 ， 其 余 key 值 (1 
和 5) 都 只 有 一 项 数据 ， 所 以 结果 为 : 1->1 项 、3->2 项 、5->1 项 。 
运行 后 屏幕 显示 界面 如 图 10-49 所 示 。 


In [8]: kvRDD1.countByKey() 
Out[8]: defaultdict(int, {1: 1, 3: 2, 5: 1}) 


图 10-49 计算 RDD 中 每 一 个 Key 值 的 项 数 
人 4 collectAsMap 创建 Key-Value 的 字典 


Python 字典 数据 类 型 就 好 像 真 实 的 字典 , 可 以 用 “ 字 ” 查 询 “ 字 的 解说 ”。 其 中 ,，“ 字 ” 
就 是 key，“ 字 的 解说 ”就 是 value。 

我 们 可 以 使 用 collectAsMap 创建 Key-Value 的 字典 。 例 如 ，kvRDDI1 数据 (3, 4), (3, 6)， 
(5,6), (1, 2) 能 帮 有 我们 产生 字典 dict( 1:2, 3:6, 5:6 )， 不 过 Key=3 有 两 个 值 4 和 6， 系统 只 能 自 
动 对 应 到 其 中 的 值 6， 也 就 是 3:6。 

运行 后 屏幕 显示 界面 如 图 10-50 所 示 。 


In [91]: KV=kvRDD1.collectAsMap() 
KV 创建 KV 字典 


Out[91]: {1: 2, 3: 6, 5: 6} 


时 


显示 KV 字典 
In [92]: type(KV) 
Out[92]: dict 


显示 KV 数据 类 型 是 字典 dict 


图 10-50 利用 collectAsMap 创建 Key-Value 字典 
本 05 使 用 对 照 表 转换 数据 
字典 建立 后 ， 使 用 字典 转换 数据 ， 运 行 后 屏幕 显示 界面 如 图 10-51 所 示 。 


In [141]: KVD] KV 字典 传 入 参数 3, 转换 为 6 


out[141: 6 


nN42 KN 一 一 一 一 一 一 一 一 一 一 | KV 字典 传 入 参数 1, 转换 为 2 


Out[142]: 2 


图 10-51 使 用 对 照 表 转 换 数 据 
ER6 Key-Value lookup 运算 


可 以 使 用 lookup 输入 key 值 来 查找 value 值 ， 以 kvRDD1((3, 4), (3, 6), (5, 6), (1, 2)) 为 例 ， 
可 参考 图 10-52。 
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In[144]: IvRDDl.lookupG3) 一 | 输入 key 值 3, 找 到 两 项 (3,4),(3, 6)， 
Out[144]: [4, 6] 所 以 value 值 是 4 和 6 

In[130j: |IvRDpDlloop( 小 “| 输入 key 值 5, 找到 1 项 

Out[130]: [6] (5, 6)，value 值 是 6 


图 10-52 lookup 运算 


Broadcast 广播 变量 


接 下 来 ， 我 们 将 介绍 Shared variable 共享 变量 。 共 享 变量 可 用 于 节省 内 存 与 运行 时 间 ， 提 
升 并 行 处 理 时 的 执行 效率 。 共 享 变 量 包括 Broadcast 和 accumulator。 


@ Broadcast 广播 变量 一 一 本 节 会 介绍 。 
@ accumulator 累加 器 一 一 下 一 节 会 介绍 。 


人 To01 不 使 用 Broadcast 广播 变量 的 范例 


我 们 先 看 不 使 用 Broadcast 广播 变量 的 范例 ， 这 个 范例 很 简单 ， 说 明 如 下 : 
先 创建 水 果 编 号 与 名 称 对 照 表 ， 然 后 使 用 此 对 照 表 将 水 果 编 号 转换 为 水 果 名 称 。 


> 创建 kvFruit 
这 是 水 果 编 号 与 名 称 的 Key-Value RDD ( 见 图 10-53) 。 


In [1]: kvFrult = sc.parallellze([(1, "apple") (2, "orange") (3, "banana") (4, "grape")]) 


图 10-53 ”创建 kvFmuit 


> 创建 ruitMap 字典 
使 用 collectAsMap 创建 fruitMap 字典 〈 水 果 编 号 与 名 称 对 照 表 ) ， 可 参考 图 10-54。 


In [2]: fruitMap=kvFruit.collectAsMap() 
print "字典 : "+str(fruitMap) 


字典 : {1: 'apple'，2: 'orange'，3: 'banana'，4: 'grape'} 


10-54 创建 fuitMap 字典 
> 创建 fruitlds ( 见 图 10-55 ) 


In [3]: fruitIds=sc.parallelize([2,4,1,3]) 
print ”水 果 编 号 : "+str(fruitIds.collect()), 


水 果 编号 : [2, 4 1, 3] 
图 10-55 创建 fruitlds 
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> 使 用 fruitMap 字典 进行 转换 ( 见 图 10-56 ) 


In [4: print " 使 用 字典 进行 转换 =>” 
fruitNames= fruitIds.map(lambda x: fruitMap[x]).collect() 
print "水果 名 称 : "+str(fruitNames) 
使 用 字典 进行 转换 => 
水 果 名 称 : [ 'orange"， 


"grape'， 'apple', 'banana'] 


图 10-56 ”使 用 fruitMap 字典 进行 转换 


上 面 的 范例 执行 起 来 虽然 没有 任何 问题 ， 但 是 在 并 行 处 理 中 每 执行 一 次 转换 都 必须 将 
fruitlds 与 fruitMap 传送 到 Worker Node, 才能 够 执行 转换 , 如 图 10-57 所 示 。 如果 字典 fruitMap 
(对 照 表 ) 很 大 ， 而 且 需 要 转换 的 fruitlds 水 果 编 号 RDD 也 很 大 ， 就 会 耗费 很 多 内 存 与 时 间 。 


fruitlds 水 果 编 号 ”水果 编号 与 名 称 对 照 表 ”水 果 名 称 


10-57 ”将 水 果 编 号 转换 为 水 果 名 称 范例 的 示意 图 
为 了 解决 这 个 问题 ， 就 必须 使 用 Broadcast 广播 变量 。 


人 2 使 用 Broadcast 广播 变量 的 范例 
Broadcast 广播 变量 使 用 规则 如 下 : 


(1) 可 以 使 用 SparkContext.broadcast([ 初 始 值 ]) 创 建 。 
(2) 使 用 .value 的 方法 来 读 取 广播 变量 的 值 。 
(3) Broadcast 广播 变量 被 创建 后 不 能 修改 。 


下 列 使 用 Broadcast 广播 变量 的 范例 与 之 前 的 范例 类 似 , 不 同 之 处 是 使 用 sc.broadcast 传 入 
fruitMap 作为 参数 ， 创 建 bcFruitMap 广播 变量 ， 使 用 bcFruitMap.value(x) 广播 变量 转换 为 
fruitNames 水 果 名 称 。 

下 列 程序 代码 与 之 前 步骤 1 所 示 的 程序 代码 类 似 , 不 同 之 处 是 改 用 bcFruitMap 广播 变量 。 
> 创建 kvFruit 


这 是 水 果 编 号 与 名 称 的 Key-Value RDD ( 见 图 10-58) 。 
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In [1]: kvFrult = sc.parallellze([(1, "apple") (2, "orange"), (3, "banana") (4, "grape")]) 


图 10-58 ”创建 kvFmit 


> 创建 fruitMap 字典 ( 见 图 10-59 ) 
使 用 collectAsMap 创建 fuitMap 字典 〈 水 果 编 号 与 名 称 对 照 表 ) 。 


In [2]: fruitMap=kvFruit.collectAsMap() 
print " 对 照 表 : "+str(fruitMap) 


对 照 表 : {1: 'apple', 2: 'orange', 3: 'banana', 4: 'grape'’} 


10-59 创建 fruitMap 字典 
> 将 fruitMap 字典 转换 为 bcFruitMap 广播 变量 


使 用 sc.broadcast 传 入 fruitMap 参数 ， 创 建 bcFruitMap 广播 变量 ( 见 图 10-60)。 


In [6]: _fruitMap=kvFruit.collectAsMap( 使 用 sc.broadcast 传 入 fruitMap 参数 ， 
| bcFruitMap=sc.broadcast(fruitMap) | 创建 bcFruitMap 广播 变量 


print "字典 : "+str(fruitMap) 
字典 : {1: 'apple'，2: 'orange'，3: 'banana', 4: 'grape'} 3: 'banana', 4: "grape’} | 


图 10-60 将 fruitMap 字典 转换 为 bcFruitMap 广播 变量 


> 创建 fruitlds ( 见 图 10-61 ) 


In [3]: fruitIds=sc.parallelize([2,4,1,3]) 
print " 水果 编号 : "+str(fruitIds.collect()), 


水 果 编 号 : [2, 4, 1, 3] 
图 10-61 创建 fruitlds 


> 使 用 bcFruitMap.value 字典 进行 转换 ( 见 图 10-62 ) 


In [8]: print "使 用 Broadcast 广播 变量 字 : 
fruitNames=fruitIds.map(lambda x 


print "zk 果 名 称 : "+str(fruitNames) 


使 用 Broadcast 广播 变量 字典 进行 进行 转换 => 使 用 bcFrmuitMap.value[x] 广 播 变量 
水 果 名 称 : ['orange'， 'grape'，'apple'，'banana'] 将 fruitlds 转换 为 fruitNames 


.collect() 


图 10-62 使 用 bcFruitMap.value 字典 进行 转换 


执行 的 结果 与 之 前 步骤 1 范例 相同 。 在 并 行 处 理 中 , bcFruitMap 广播 变量 会 传送 到 Worker 
Node 机 器 ， 并 且 存 储 在 内 存 中 ， 如 图 10-63 所 示 。 后 续 在 此 Worker Node 都 可 以 使 用 这 个 
bcFruitMap 广播 变量 执行 转换 ， 这 样 就 可 以 节省 很 多 内 存 与 传送 时 间 。 
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和 
| Worker | 


1 Node2 apple 
3 | l banana 


图 10-63 ”使 用 Broadcast 广播 变量 执行 范例 的 图 解 


人 0) accumulator 累加 器 的 介绍 


计算 总 和 是 MapReduce 常用 的 运算 。 为 了 方便 并 行 处 理 ，Spark 特别 提供 了 accumulator 
累加 器 共享 变量 (Shared variable) ， 使 用 规则 如 下 : 
accumulator 累加 器 可 以 使 用 SparkContext.accumulator([ 初 始 值 ]) 来 创建 。 
使 用 .add() 进行 累加 。 
在 task 中 ， 例 如 foreach 循环 中 ， 不 能 读 取 累加 器 的 值 。 
只 有 驱动 程序 ， 也 就 是 循环 外 ， 才 可 以 使 用 .value 来 读 取 累加 器 的 值 。 


名) accumulator 累加 器 范例 
接 下 来 ， 我 们 使 用 下 列 范例 计算 RDD 的 求 和 、 计 数 。 
> 创建 范例 RDD ( 见 图 10-64 ) 


In [9]: IntRDD = sc.parallellze([3,1, 2, 5, 5]) 
图 10-64 创建 范例 RDD 


> 创建 total 累加 器 ， 初 始 值 使 用 0.0， 所 以 是 Double 的 类 型 ( 见 图 10-65 ) 


In [10]: total = sc.accumulator(0.0) 


10-65 创建 total 累加 器 
> 创建 num 累加 器 ,初始 值 使 用 0， 所 以 是 Int 的 类 型 ( 见 图 10-66 ) 


In [11]: num = sc.accumulator(0) 


图 10-66 创建 num 累加 器 
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> 使 用 foreach 传 入 参数 i， 针 对 每 一 项 数据 执行 
total 累加 intRDD 元 素 的 值 、num 累加 intRDD 元 素 的 数量 ( 见 图 10-67) 。 


In [12]: IntRDD.foreach(lambda i: [total.add(l), num.add(1)]) 


图 10-67 ”使 用 foreach 进行 累加 
> ”计算 平均 = 求 和 / 计数 ， 并 显示 总 和 、 数 量 ( 见 图 10-68 ) 


In [13]: avg = total.value / num.value 
print("total="*+str(total.value)+", num="+*+str(num.value)+", avg="+str(avg)) 


total=16.0, num=5, avg=3.2 
10-68 计算 机 平均 值 并 显示 总 和 、 数 量 


RDD Persistence 持久 化 


Spark RDD 持久 化 机 制 可 以 用 于 将 需要 重复 运算 的 RDD 存储 在 内 存 中 ， 以 便 大 幅 提 升 运 
算 效率 。 
Spark RDD 持久 化 使 用 方法 如 下 : 
@ RDD.persist ( 存储 等 级 ) 
是 存储 在 内 存 中 。 
@ RDD.unpersist() 一 一 取消 持久 化 。 


可 以 指定 存储 等 级 ， 默 认 是 MEMORY_ONLY， 也 就 


持久 化 存储 等 级 说 明 如 下 : 
> MEMORY_ONLY 


这 是 默认 选项 。 存储 RDD 的 方式 是 以 Java 对 象 反 串 行 化 在 JVM 内 存 中 , 如 果 RDD 太 大 
无 法 完全 存储 在 内 存 ， 多 余 的 RDD partitions 不 会 缓存 在 内 存 中 ， 而 是 需要 时 再 重新 计算 。 
> MEMORY_AND_DISK 

存储 RDD 的 方式 是 以 Java 对 象 反串 行 化 在 JVM 内 存 中 如 果 RDD 太 大 就 无 法 完全 存储 
在 内 存 ， 会 将 多 余 的 RDD partitions 存储 在 硬盘 中 ， 需 要 时 再 从 硬盘 读 取 。 
> MEMORY_ONLY_SER 


与 MEMORY ONLY 类 似 ， 但 是 存储 RDD 以 Java 对 象 串 行 化 ， 因 为 需要 再 进行 反串 行 
化 才能 使 用 ， 所 以 会 多 使 用 CPU 的 计算 资源 ， 但 是 比较 省 内 存 的 存储 空间 。 多 余 的 RDD 
partitions 不 会 缓存 在 内 存 中 ， 而 是 需要 时 再 重新 计算 。 
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> MEMORY_AND_DISK_SER 
与 MEMORY _ ONLY _SER 类 似 ， 会 将 多 余 的 RDD partitions 存储 在 硬盘 中 ， 需 要 时 再 从 


硬盘 读 取 。 


> DISK_ONLY 
存储 RDD 在 硬盘 上 。 


> MEMORY_ONLY_2, MEMORY_AND_DISK_2, etc. 
与 上 列 相 对 应 的 存储 选项 一 样 ， 但 是 每 一 个 RDD partitions 都 复制 到 两 个 节点 。 
Zo01 使 用 RDD.persist() 持 久 化 ( 见 图 10-69 ) 


In [8]: 
Out[8]: 


intRddMemory = sc.parallelize(B, T2757 ————————————— 
ParallelcollectionRDpD[5] at parallelize at PythonRDD.scal 


1. 创建 intRddMemory 


In [22]: 


Out[22]: 


In [9]: TO 
Out[9]: True 


intRddMemory.Persist( 一 一 


ParallelCollectionRDD[5] at parallelize at PythonRDD.scal 


2 将 intRddMemory 持 
入 化 


3. 查看 是 否 已 经 cached 
(缓存 ) 


图 10-69 持久 化 


本 D02 使 用 RDD.unpersist(0) 取 消 持久 化 ( 见 图 10-70 ) 


In [10]: 
Out[10]: 


In [11: 


Out[11]: 


intRddMemory.unpersist0 一 b 取消 持久 化 
ParallelCollectionRDD[5] at parallelize at PythonRDD.scala:423 


intRddMemory.is_cached 一 一 | 2. 查看 是 否 已 经 取消 缓存 
False = 


图 10-70 取消 持久 化 


3. False 代表 已 经 取消 


人 3 RDD.persist 设置 存储 等 级 范例 ( 见 图 10-71 ) 


In [23]: 


In [24]: 


Out[24] 


In [25]: 
Out[25]: 


intRddMemoryAndDisk = sc.parallelize([3,1, 2, 5, 5]) 1. 创建 RDD 


2. 设置 存储 等 级 


3. 已 经 cached (缓存 ) 


intRddMemoryAndDisk.persist(StorageLevel. MEMORY_AND_DISK). 


ParallelCollectionRDD[12] at parallelize at PythonRDD.scala:423 


intRddMemoryAndDisk.is_cached 


True 
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使 用 Spark 创建 WordCount 


本 章 到 目前 为 止 ， 我 们 学 到 了 map 与 reduceByKey。 接 下 来 ， 我 们 将 使 用 map 与 
reduceByKey 编写 Spark 版 本 的 WordCount。 


人 Di 创建 测试 文件 
在 “终端 ”程序 中 的 提示 符 后 输入 下 列 命令 : 


> 创建 WordCount 的 数据 目录 
mkdir -p ~/pythonwork/ipynotebook/data 


> 切换 至 WordCount 的 数据 目录 
cd ~/pythonwork/ipynotebook/data 


> 编辑 test.txt 
gedit test.txt 
运行 后 屏幕 显示 界面 如 图 10-72 所 示 。 


hduser@master: ~/pythonwork/ipynotebook/data 
lhduser@master:~$ mkdir -p ~/pythonwork/ipynotebook/data 


hduser@master:~$ cd ~/pythonwork/ipynotebook/data 
hduser@master:~/pythonwork/ipynotebook/data$ gedit test.txt 


图 10-72 创建 测试 文件 
输入 后 按 Enter 键 就 会 打开 test.txt， 屏 幕 显 示 界 面 如 图 10-73 所 示 。 


*test.txt (~) - gedit 


肘 隐 i ， 恬 祭 顾 


*test.txt x 
多 
Banana Grape Grape| 
图 10-73 在 test.txt 文件 中 输入 内 容 
输入 内 容 后 单 击 “保存 ”按钮 ， 再 关闭 该 文件 。 


人 2 执行 WordCount spark 命令 


在 Spark 运行 WordCount 就 是 如 此 简单 ， 只 需要 4 行 命令 。 与 第 7 章 Hadoop MapReduce 
介绍 的 wordCount.Java 比较 ， 可 以 发 现 程序 代码 简单 很 多 ， 而 且 容 易 理 解 。 在 pyspark 输入 下 
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列 命令 ， 这 些 命令 的 详细 用 法 ， 我 们 下 一 节 会 详细 解说 。 
> 读 取 文本 文件 


> 使 用 flatMap 空格 符 分 隔 单词 ， 并 读 取 每 个 单词 


> 通过 map reduce 计算 每 一 个 单词 出 现 的 次 数 


> 保存 计算 结果 


运行 后 屏幕 显示 界面 如 图 10-74 所 示 。 


In [120]: textFile = sc.textFile("data/test.txt") 
stringRDD=textFile.flatMap(lambda line : line.split(" ")) 
countsRDD = stringRDD.map(lambda word : (word, 1)) \ 

.reduceByKey(lambda xy : x+y) 
CountsRDD.saveAsTextFile("data/output") 


10-74 执行 WordCount spark 命令 
《ET63 查看 执行 目录 


为 之 前 在 第 10.2 节 我 们 进入 IPython Notebook 时 的 工作 路 径 是 ~/pythonwork/ 
ipynotebook/， 所 以 执行 的 结果 会 存储 在 工作 路 径 下 的 data/output 目录 。 下 面 我 们 使 用 相对 路 
径 查 看 文件 ， 执 行 的 结果 会 存储 在 /home/hduser/pythonwork/ipynotebook/data/output 目录 。 


> 查看 data 目录 


可 以 在 IPython Notebook 查看 目录 , 请 使 用 1L 命令 来 查看 data 目录 , 但 是 必须 加 上 “%” 
符号 ， 告 诉 IPython Notebook 这 是 一 个 shell 命令 。 


> 查看 output 目录 
在 iPython Notebook 输入 下 列 命令 切换 到 output 目录 ， 查 看 输出 目录 。 


> 查看 part-00000 输出 文件 
在 iPython Notebook 输入 下 列 命令 ， 查 看 输出 文件 内 容 : 


B 


4 


运行 后 屏幕 显示 界面 如 图 10-75 所 示 。 
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In[31]: %lldata 
总 用 量 4222 


-rwxrwxrwx 1 root 4318368 1 月 23 261 -Zincode-database-Primary.csv* 
drwxrwxrwx 1 root ” 4996 5 月 39 21:4! 


-rwxrwxrwx 1 root 38 3 月 12 23:48 test.txt* 


In [32]: %lldata/output 
总 用 量 1 


-rwxrwxrwx 1 root 58 5 月 39 21:49| part-99999"| 
-rwxrwxrwx 1 root 9 5 月 39 21:46| SUCCESS* 


In [33]: %cat data/output/part-00000 


(urorange'，1) 
(u'Grape', 2) 


(u'Apple', 2) 
(u'Banana'，1) 


10-75 查看 执行 目录 


从 执行 结果 可 以 看 到 Grape 与 Apple 都 出 现 了 两 次 , 而 Orange 与 Banana 都 只 出 现 了 一 次 。 


04 发 生 目 录 已 经 存在 的 错误 


如 果 我 们 再 次 输入 下 列 指令 ，output 目录 已 经 存在 ， 无 法 写 入 数据 ， 就 会 产生 错误 ， 出 


现 如 图 10-76 所 示 的 错误 信息 。 


In [2]: textFile = sc.textFile("data/test.txt") 
stringRDD=textFile.flatMap(lambda line : line.split(" ")) 
countsRDD = stringRDD.map(lambda word : (word, 1)) \ 

-reduceByKey(lambda xy : x+y) 
countsRDD.saveAsTextFile("data/output") 


Py4JJavaError 
<ipython-input-2-3f7f9dagb4cc> in <module>() 
2 stringRDD=textFile.flatMap(lambda line 
3 countsRDD = stringRDD.map(lambda word 


x+y) 
----> 4 CountsRDD.saveAsTextFile("data/output") 


图 10-76 发 生 目 录 已 经 存在 的 错误 
人 5 圳 除 输 出 目录 ( 见 图 10-77 ) 


输出 目录 已 经 存在 ， 


发 生 错 误 


Traceback (most recent call last) 


line.split(" ")) 
(word, 


1)) 


In [28]: | %rm-Rdata/output 一 一 一 一 一 一 一 一 一 一 一 一 一 [删除 输出 目录 ] 


图 10-77 删除 输出 目录 


删除 后 ， 我 们 再 执行 一 次 WordCount 就 不 会 发 生 错误 了 。 
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Spark WordCount 详细 解说 


上 一 节 已 经 示范 了 Spark 的 WordCount 程序 ， 因 为 map reduce 原理 很 重要 ， 所 以 在 本 节 
将 详细 介绍 WordCount 的 每 一 条 命令 。 图 10-78 为 示意 图 。 


-map (word => (word, 1)) .reduceByKey( + ) 
flatMap (line => line.split(" ")) 


10-78 ”Spark WordCount 运行 流程 示意 图 


如 图 10-78 所 示 , 首先 用 sc.textFile 读 取 文件 , 经 过 flatMap 产生 6 项 RDD, 再 经 过 map 
产生 (word,1)， 然 后 用 .reduceByKey 进行 统计 ， 最 后 使 用 saveAsTextFile 存储 。 


Jo01 sc.textFile 读 取 本 地 文件 


首先 ， 输 入 下 列 指令 读 取 本 地 文本 文件 。 因 为 sc.textFile 是 一 个 转换 运算 ， 所 以 不 会 马上 
实际 执行 。 可 以 使 用 下 textFile.collect0 显 示 出 文本 文件 内 容 ， 运 行 后 屏幕 显示 界面 如 图 10-79 
所 示 。 


In [7]: textFile = sc.textFile("data/test.bxt") 
textFile.collect() 


Out[7]: [u'Apple Apple Orange', u'Banana Grape Grape'] 
10-79 通过 sc.textFile 读 取 本 地 文件 
B02 flatMap 读 取 每 一 个 单词 
文本 文件 以 空格 符 分 隔 单词 ， 我 们 可 以 使 用 flatMap 指令 取出 每 一 个 文字 ， 并 编写 


stringRDD。 因 为 之 前 的 指令 是 一 个 “转换 ”运算 ， 不 会 马上 实际 执行 ， 所 以 使 用 collect 将 
结果 转换 为 List， 就 会 立刻 实际 执行 ， 如 图 10-80 所 示 。 
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In [6]: stringRDD=textFile.flatMap(lambda line : line.split(" ")) 
stringRDD.collect() 


Out[6]: [uv'Apple’', u'Apple', u'Orange', u'Banana'’, u'Grape', u'6rape'] 


10-80 通过 flatMap 读 取 每 一 个 单词 
和 Fl03 flatMap 与 map 的 差异 


在 这 里 要 特别 注意 ,在 上 一 步骤 以 空格 符 分 隔 单词 创建 stringRDD 时 , 必须 要 使 用 flatMap， 
不 能 使 用 map， 因 为 fatMap 与 map 功能 不 同 。 我 们 测试 下 列 两 条 命令 ， 就 可 以 了 解 这 两 条 命 
令 的 差异 了 。 


> map 命令 


map 产生 的 List 是 分 层 的 。 第 一 层 List 是 文本 文件 的 每 一 行 、 第 二 层 List 是 每 一 行内 的 
英文 单词 。 执 行 后 的 屏幕 显示 界面 如 图 10-81 所 示 。 


In [67]: stringRDD=textFile.map(lambda line : line.split(" ")) 
stringRDD.collect() 


Out[67]: | {fu'App1e', u'Apple', u'orange'], [fu'Banana', u'Grape', u'Grape']] 
10-81 map 命令 产生 的 List 具有 分 层 


> flatMap 命令 


flat 有 平坦 的 意思 ， 也 就 是 说 flatMap 产生 的 List 会 将 所 有 分 层 去 掉 ， 结 果 为 List(Apple， 
Apple, Orange, Banana, Grape, Grape)， 执 行 后 的 屏幕 显示 界面 如 图 10-82 所 示 。 


In [9]: stringRDD=textFile.flatMap(lambda line : line.split(" ")) 
stringRDD.collect() 


Out[9]: [u'Apple', u'Apple’, u'Orange', uy'Banana'’, u'Grape', u'Grape']: 无 分 层 


图 10-82 ”flatMap 命令 产生 的 List 无 分 层 


人 4 map 创建 Key-Value Pair 


接 下 来 , 我 们 使 用 map 来 创建 Key-Value Pair。 因 为 有 了 Key-Value Pair， 就 很 容易 进行 并 
行 运算 了 ， 如 图 10-83 所 示 。 


in [10]: stringRDD.map(lambda word : (word, 1)).collect() 


Out[10]: [(v'Apple’, 1), 
(vApple’, 1), 
(uv'Orange’, 1), 
(uv'Banana', 1), 
(uv'Grape’, 1), 
(uGrape' 1)] 


10-83 ”使 用 map 创建 key-Value Pair 
(1) 使 用 map 命令 将 stringRDD 每 一 个 英文 单词 转换 为 Key-Value。 
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(2) 其 中 Key 值 是 每 一 个 英文 单词 、Value 值 都 是 1 。 
(3) 因为 map 是 “转换 ”运算 ， 所 以 不 会 马上 实际 运行 。 为 了 立刻 运行 看 到 结果 ， 可 以 
加 上 “行动 ”运算 .foreach(printim) 输 出 每 一 条 数据 。 


人 5 map 加 reduceByKey 


接 下 来 ， 使 用 map 加 上 reduceByKey 完成 Map/Reduce 功能 。 

reduceByKey 传 入 匿名 函数 (lambda x,y : x+ty)， 此 匿名 函数 会 将 相同 的 key 值 相 加 。 因 为 
reduceByKey 是 “转换 ”运算 ， 所 以 不 会 马上 运行 。 加 上 “动作 ”运算 .collect0, 转换 为 Lisb 
就 会 马上 执行 ， 如 图 10-84 所 示 。 


In [76]: stringRDD.map(lambda word : (word, 1)).reduceByKey(lambda xy : x+y).collect() 
Out[76]: [(u'orange'，1)，(u'Grape'，2)，(u'Apple'，2)，(u'Banana'，1)] 


图 10-84 使 用 map 加 reduceByKey 完成 Map/Reduce 功能 


执行 后 ， 我 们 可 以 看 到 Grape 与 Apple 都 出 现 了 两 次 ， 而 Orange 与 Banana 都 只 出 现 了 1 次 。 


本 章 我 们 使 用 IPython NoteBook 介绍 了 Spark 的 基本 功能 RDD, 还 用 WordCount 作为 
Spark Map/Reduce 统计 文章 中 单词 的 字数 。IPython NoteBook 虽然 使 用 很 方便 ， 但 是 有 时 我 
们 希望 能 够 创建 一 个 完整 的 Python Spark 程序 , 可 以 重复 执行 数据 分 析 。 要 开发 Python Spark 
应 用 程序 ,最 好 是 使 用 集成 开发 环境 (IDE), 这 样 更 有 效率 ,所 以 下 一 章 将 介绍 如 何 使 用 eclipse 

合 pyDev 开发 Python Spark 应 用 程序 。 
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之 前 我 们 介绍 pyspark 与 IPython Notebook 执行 Python 
Spark 命令 ， 优 点 是 具有 交互 性 ， 输 入 命令 后 可 以 立刻 看 到 响 
应 。 如 果 我 们 希望 能 够 成 交 一 个 完整 的 Python Spark 程序 ， 就 
可 以 重复 执行 数据 分 析 。 要 开发 Python Spark 应 用 程序 , 最 好 
是 有 集成 开发 环境 Integrated Development Environment(IDE )， 
这 样 更 有 效率 。 

本 章 我 们 将 介绍 使 用 eclipse 集成 开发 环境 (IDE) 来 开发 
Spark 应 用 程序 。eclipse 是 很 受 欢迎 的 跨 平台 、 开 放 源 码 、 集 
成 开发 环境 (IDE)。eclipse 是 一 个 开发 框架 ， 最 初 用 于 开发 
Java 语言 的 程序 ， 并 且 可 以 通过 外 挂 模 块 的 支持 , 使 其 成 为 其 
他 程序 设计 语言 的 开发 工具 ， 例 如 C++、Python、PHP、Scala 


A 
等 。 
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Python 集成 开发 环境 很 多 ， 本 书 介绍 使 用 eclipse， 并 且 选 择 使 用 Scala IDE eclipse 集成 
开发 环境 , 这 是 因为 Spark 本 身 就 是 Scala 开发 的 , 使 用 Spark 很 有 可 能 会 用 到 scala 语 
言 , 所 以 我 们 希望 能 够 在 一 个 开发 环境 中 开发 Scala 与 Python。 不 过 本 书 主要 是 介绍 Python 
开发 Spark 应 用 程序 ， 想 要 学 习 以 Scala 开发 Spark 应 用 程序 ， 可 以 参考 笔者 的 另外 一 本 
著作 《Hadoop+Spark 大 数据 巨 量 分 析 与 机 器 学 习 整 合 开 发 实战 》。 


> 集成 开发 环境 的 好 处 


使 用 集成 开发 环境 的 好 处 很 多 ， 举 例如 下 : 
(1) Code Completion: 自动 完成 程序 代码 。 如 图 11-1 所 示 , 输入 sc 后 按 下 “. ”就 会 弹 
出 此 对 象 能 够 使 用 的 method。 有 了 这 个 功能 ， 就 不 需要 强 记 命令 了 ， 非 常 方便 。 


val textFile = | 


¥ tachyonFolderName -org opache spark.SparkContext 
© textFile(path: String, minpartitions: Int): RDD[String] -or 

Printin("read txtFi 。tostring():string -java lang Object 

val countsRDD = 目 trait-newtratk 


习 try-try 


-map(word => 目 trycatch-try catchblock 


-reduceByKey(_ 


val countsRDDso 


Press At lo show Template Proposas 二 


11-1 自动 完成 程序 代码 


(2) Semantic Highlighting: 关键 词 、 对 象 、 变 量 、 字 符 串 、 注 释 等 都 用 不 同 的 颜色 标注 
出 来 ， 让 程序 代码 更 易 读 ， 如 图 11-2 所 示 。 


oblect RunWordCount { 
def main(args: Aray[stnnolj: Unit = { 
Logger.getLogger("org").setLevel(Level.OFF) 
Logger.getL.ogger("com").setLevel(Level OFF) 
Logger.gelLogger( INFO").selLevel(Level.OFF) 


System setProperty("spark ul showConsoleProgress", “false”) 
printin("start word count") 
val sc = new SparkContexttnew SparkConf0.setAppName("wordCount) setMasterf'locall4J)) 


printin(so") 


图 11-2 用 不 同 颜色 标注 各 项 


(3) 程序 代码 的 编辑 、 编 译 、 调 试 、 运 行 都 在 同一 个 环境 中 ， 大 幅度 提升 了 软件 开发 的 
效率 ， 如 图 11-3 所 示 。 
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图 11-3 程序 代码 的 编辑 、 编 译 、 运 行 都 在 同一 个 环境 中 
> Spark Python 集成 开发 环境 的 安装 步骤 ( 见 表 11-1 ) 


表 11-1 Spark Python 集成 开发 环境 的 安装 步骤 
顺序 ”安装 步骤 说 明 


下 载 与 安装 eclipse Scala IDE 选择 使 用 Scala IDE eclipse 版 本 ， 我 们 希望 能 够 在 一 个 开 


发 环境 中 开发 scala 与 Python 


和 pp jiTRg 丰 sim 天 发 Paon 2 用 PyDev 和 人 


字符 串 替 代 变量 的 作用 是 代表 某 一 个 字符 串 : 我 们 将 设置 
3 个 字符 串 赫 代 变 量 SPARK HOME 、 
置 字符 申 普 代 HADOOP_CONF_DIR、PYSPARK_PYTHON, 后 续 的 设置 
过 程 需 使 用 这 些 字符 串 替代 变量 
Dev 设置 Sp 


设 
PyDev 设置 Python 链接 库 路 径 必须 在 PyDev 设置 指定 Python 2.7 链接 库 的 路 径 
必 
y 


PyDev 设置 anaconda2 链接 库 路 径 须 在 PyDev 设置 指定 anaconda2 链接 库 的 路 径 


变量 
PyDev ark Python 链接 库 


当 我 们 执行 Spark Python 程序 时 必须 引用 Spark Python 程 
序 库 ， 所 以 必须 设置 Spark Python 链接 库 


当 我 们 在 eclipse 执行 Spark Python 程序 时 ， 必 须 设 置 两 个 
环境 变量 SPARK_HOME 与 HADOOP_CONF_DIR。 我 们 
将 使 用 之 前 设置 的 字符 串 蔡 代 变 量 设置 环境 变量 ， 简 化 设 
置 过 程 


> 本 章 命令 整理 

本 章 使 用 的 命令 已 经 整理 在 本 书 的 博客 文章 中 ， 在 练习 安装 时 可 以 复制 博客 文章 中 的 命 
令 ， 然 后 粘贴 到 “终端 ”程序 中 。 这 样 既 可 节省 打字 的 时 间 ， 也 不 用 担心 打 错字 (无 法 在 
VirtualBox 虚拟 机 的 Ubuntu“ 终 端 ” 程 序 中 执行 复制 /粘贴 操作 时 , 可 参考 第 3.9 节 的 说 明 , 设 
置 好 VirtualBox 的 共享 剪贴 板 )。 本 书 的 博客 网 址 为 : 


http://blog.sina.com.cn/hadoopsparkbook 
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1 下 载 与 安装 eclipse Scala IDE 


下 载 Scala IDE eclipse 集成 开发 环境 ， 将 其 安装 在 master 服务 器 上 。 
人 1) 浏览 ScalaIDE 网 页 


在 master 服务 器 中 ， 启 动 浏览 器 ， 输 入 下 列 网 址 ， 进 入 Scala IDE 官网 ， 如 图 11-4 所 示 。 


http://scala-ide.org/ 


EDZ IF 
小 ScalalDE 


Version 4.4.1 淳 scaaD 


Now Availablel | Scala IDE 


New and Noteworthy in 3.0 


单 击 即 可 下 载 Scala IDE 


图 11-4 浏览 Scala IDE 网 页 


02 Scala IDE 下 载 页面 ( 见 图 11-5) 


Download Scala IDE for Eclipse - Scala IDE For Eclipse - Morilla Firefox 


江 Download ScalalDE... x 
Ry scala-ide. org S 合 白 加 县 


For Scala 2.11.8 
Download IDE Linux - 64 bt TE 


Windows 


rapws 04 oh 


Requirements 


i 


图 11-5 ”Scala IDE 下 载 页 面 
FI03 选择 以 “归档 管理 器 ”来 打开 ( 见 图 11-6 ) 
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Opening scala-SDK-4.4.1-vfinal-2.11-linux.gtk.x86_64.tar.gz 


1. 选择 “Open with 归档 管理 器 ” 
What should Firefox do with this file? 


罗 |Open with| | 归档 管理 器 (default) S 


Save File 


You have chosen to open: 
国 scala-SDK-4.4.1-vfinal-2.11-linux.gtk.x86_64.tar.gz 


which is: Gzip 归档 文件 (223 MB) 
from: http://downloads.typesafe com 


Do this automatically for files like this from nowon 


图 11-6 选择 “Open with 归档 管理 器 ” 
人 4 归档 管理 器 界面 
在 归档 管理 器 中 解压 缩 文 件 ， 如 图 11-7 所 示 。 


scala-SDK-4.4.1-vfinal-2.11-linux.gtk.x86_64.tar.gz [只 读 ] 


会 S 
FREE 单 击 “提取 ”按钮 


* 大 小 
260.1 MB 2016 年 5 月 4 日 19:17 


图 11-7 提取 压缩 文件 
GI05 选择 解压 缩 的 文件 天 
接 下 来 选择 解压 缩 的 文件 夹 ， 解 压缩 到 “ 主 文件 夹 ”， 屏 幕 显示 界面 如 图 11-8 所 示 。 


Ed 夯 hduser 创建 文件 夹 (1) 


，。 大 小 。 候 届 日 其 
昨天 于 2019 
Workspace 15:43 
居 公 共 的 星期 四 
GE 职 机 板 星期 四 
和 图片 国 珊 频 星期 四 
口 文档 届 图 片 星期 四 
下 茂 居 文 净 星期 四 
加 音乐 画 下 天 昨天 于 21:50 
国 回收 站 十 襄 示 星期 四 


a 国 点 面 星期 四 


提取 
加 全 部 文生 内) 竺 目 录 “提取 ”按钮 


图 11-8 选择 解压 缩 的 文件 夹 
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C06 启动 文件 资源 管理 器 


启动 文件 资源 管理 器 ， 然 后 打开 eclipse 文件 夹 ， 如 图 11-9 所 示 。 


1. 单 击 “ 文 件 ” 按 钮 


-EFLTEREIE UIEE 


11-9 打开 eclipse 文件 夹 


JI0’ 创建 链接 


创建 链接 ， 方 便 以 后 运行 程序 ， 如 图 11-10 所 示 。 


eclipse 


全 主 文件 夹 ectipse 


位 置 
名 最 近 使 用 的 


会 主 文件 夫 configuration features 

[ed 

有 -4 上 右 击 
加 图 片 p2 

口 文档 

忌 下 载 

明 音 乐 artifacts.xml 


面 回收 站 
设备 
®@ veoxADoMo. 


贸 浏 览 网 
且 连接 到 服务 器 


选中 了 “eclipser (747KB) 


图 11-10 ”创建 链接 


D08 将 创建 的 eclipse 链接 拖 动 到 桌面 


将 创建 的 eclipse 链接 拖 动 到 桌面 。 以 后 要 运行 eclipse 时 ， 只 需要 在 图 标 上 双击 即 可 ， 


图 11-11 所 示 。 
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2. 单 击 主 文件 夹 


3. 双击 eclipse 文件 夹 


i 下 
TH ~ 
4 

pr 


1. 在 eclipse 运行 文件 


如 
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将 创建 后 的 链接 拖 动 至 桌面 


confgurabon 


< 


eclipse edipsein 


9 
六 


onKpm 


CEL ELIIIELEE 


选中 了 "到 eclipse 的 钳 接 (74.7KB) 


图 11-11 拖 动 链接 至 桌面 


安装 PyDev 


开发 Python 使 用 eclipse 作为 IDE， 必 须 安装 PyDev 这 个 eclipse 的 plugin。 


人 Jo01 运行 eclipse 程序 


输入 工作 路 径 /home/hduser/pythonwork， 步 又 如 图 11-12 所 示 。 


Workspace Launcher 


Workspace Launcher 


Sloe s workapace 1. 双击 图 标 以 运行 eclipse 


Scala IDE stores your projects ina folder called a workspace 
Choose a workspace folder to use for this session. 


2. 输入 工作 路 径 


3. 单 击 OK 按钮 


Use this as the default and do not ask again 


图 11-12 运行 eclipse 程序 


人 安装 PyDev 程序 包 
启动 后 的 eclipse 屏幕 显示 界面 如 图 11-13 所 示 ， 并 按照 下 列 步骤 安装 PyDev 程序 包 。 
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阅 master1iEEE5] - Oracle VM VirtualBox 


局 packageExplo 8 = 口 依次 选择 Help 一 


Check date: 


Install New Software 
Install New Software... 


菜单 选项 


11-13 选择 菜单 选项 


人 3 添加 程序 包 

选择 菜单 选项 后 会 打开 Install 对 话 框 ， 单 击 Add 按钮 ， 之 后 会 打开 Add Repository 对 话 
框 。 输 入 要 安装 程序 包 的 网 址 ，eclipse 会 帮助 我 们 下 载 安装 PyDev 4.5.4 版 本 ， 如 图 11-14 
所 示 。 
1. 单 击 Add 按钮 ， 
打开 Add Repository 


Avallable Software 
Check the items that you wish to install. 


Work with: | pyDev-https://dLbintray.com/fabioz/pydev/4.5.4/ 


国 


[type filter text 


二 2. 在 Add Repository 对 话 
框 中 设置 Name 为 PyDev、 
Location 为 https://dl.binary. 
com/fabioz/pydev/4.5.4/ 


3. 单 击 OK 按钮 


图 11-14 添加 程序 包 


人 4 Add Repository 对 话 框 
等 候 一 些 时 间 后 ， 屏 幕 显示 界面 会 出 现 PyDev 安装 选项 ， 先 勾 选 PyDev， 然 后 单 击 Next 


按钮 ， 如 图 11-15 所 示 。 
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Available Software 
Check the items thatyouwishtoinstall 


Work with: [pyDev- https://dLbintray.com/Fabioz/pydev/4.5.4/ 


Version 


yyn integration (optional 


selectAll Deselect All Titem selected 


Details 
PyDev 
VShow only the latest versions of available software  @ Hide tems that are already installed 


Group tems by category Whatis already installed? 
DD Show only software applicable to target environment 


BB Contact all update sltes duringinstall to find required software 


11-15 选择 安装 PyDev 


人 D05 显示 安装 选项 ( 见 图 11-16 ) 


Install Detalls 


Review the items to be installed. 


Name Version 
WB PyDev for Eclipse 4.5.4.201601292234 org.pythonpydevfeatu 


Size: Unknown 


Details 


图 11-16 显示 安装 选项 
C306 阅读 Licenses 条 款 ( 见 图 11-17) 
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Revlew Licenses 
Licenses must be reviewed and accepted before the software can beinstalled 


Uicensetext(for PyDevfor Eclipse 4.5.4.201601292234): 
EEclipse Public License-v 1.0 

ITHE ACCOMPANYING PROGRAM I5 PROVIDED UNDER THE TERMS OF THIS ECLIPSE PUBLIC LICENSE 
(‘AGREEMENT"). ANY UsE REPRODUCTION OR DISTRIBUTION OF THE PROCRAM CONSTITUTES RECIPIENT'S 
[ACCEPTANCE OF THIS AGREEMENT. 

1. DEFINITIONS 

rcontrlbuklon means: 


3) in the case of the initial Contributor, the initial code and documentation dictributed under this Agreement, 
and L 


® 1accept the terms of the license agreement 


D 1do notaccept theterms of the licence agreement 


2. 单 击 Finish 按钮 


@ _<Back Next> 


11-17 阅读 Licenses 条 款 并 接受 
07 安装 进度 ( 见 图 11-18) 


设置 完 之 前 的 步骤 后 单 击 Finish 按钮 ， 就 会 回 到 eclipse 主 界面 。 此 时 将 会 开始 安装 
PyDev。 我 们 可 以 在 eclipse 界面 的 右 下 角 看 到 安装 的 进度 ， 等 候 安装 进度 至 100% 。 


瘟 日 屿 号 喇 四 GO + 


在 eclipse 画面 的 右 下 
角 可 以 看 到 安装 进度 


° 


el 


ET vo Installing Software: (44%) UL 


图 11-18 显示 安装 进度 


C708 确认 是 否 信任 下 列 认证 


安装 期 间 会 询问 是 否 信 任 认证 ( 见 图 11-19) 。 
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Selection Needed 


Do youtrust these certificates? 


@ Brainwy Software; PyDev; Brainwy 


图 11-19 选择 信任 认证 
J09 询问 是 否 要 重新 启动 eclipse 


安装 完成 后 ，eclipse 必须 重新 启动 才能 生效 〈 见 图 11-20) 。 


Youwillneed to restart Scala IDE for the changestotakeeffect Would you like to restart 


now 


11-20 选择 重新 启动 
0 重新 启动 eclipse 
新 启动 后 ， 输 入 工作 路 径 〈 见 图 11-21) 。 


ml 


Select a workspace 


Scala IDE stores your projects ina folder called a workspace. 
Choose a workspace folder to use for this session. 


Workspace: Browse. 


Use this as the default and do not ask again 


| 


图 11-21 重新 启动 后 输入 工作 路 径 


CE 询问 是 否 更 新 


单 击 Yes 按钮 


eclipse 会 询问 是 否 更 新 ， 单 击 Apply selected changes 按钮 ， 如 图 11-22 所 示 。 
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System PYTHONPATH changes detected 


Please check whichinterpreters and paths should be updated. 


vY 二 Python (fusr/bin/python) 


可 最 Remove from PYTHONPATH:/usWlib/pymodules/python2.7 


Select All Deselect AlL 


@ Don'task again (lgnore al Applyselected changes (ignore unselected) 


11-22 ”接受 更 新 


设置 字符 串 蔡 代 变量 


字符 串 奉 代 变 量 〈String Substitution Variable) 的 作用 是 可 以 设置 某 一 个 变量 来 代表 某 
个 字符 串 。 例 如 ， 后 续 我 们 要 设置 ${SPARK_HOME} 字符 串 替 代 变 量 为 Spark 安装 路 径 。 
我 们 将 设置 3 个 字符 串 替代 变量 ， 这 些 替 代 变 量 在 后 续 的 设置 过 程 都 会 使 用 到 。 


@ SPARK HOME= /usr/local/spark ( Spark 的 安装 路 径 )。 
® HADOOP_CONF_DIR=/usrlocalhadoop/etc/hadoop ( Hadoop 配置 文件 的 路 径 )。 
® PYSPARK PYTHON=/home/hduser/anaconda2/bin/python ( anaconda 链接 库 路 径 )。 


全 Jo1 依次 选择 Window 一 Preferences 菜单 选项 ( 见 图 11-23 ) 


四 v 


ls Package Explorer 


用 鼠标 依次 单 击 Window 


一 Preferences 


图 11-23 选择 菜单 选项 
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人 2 设置 字符 串 替 代 变 量 
依次 单 击 Run/Debug 一 String Substitution 菜单 选项 来 设置 字符 串 替 代 ， 如 图 11-24 所 示 。 


[ 国 | String Substitution 


上 0 create and configure string substitution variables. 


FRR 一 一 Descripti 

Fw | 开间 击 Ronpebus | 击 开间 击 Ronpebus | 
Console Edit. 
External Tools 

» Launching 


Perspectives 3. 单 击 New 


Si seb 
， 2. 单 击 String Substitution 
* Scal 


» Scala Worksheet 


@ Cancel 


图 11-24 设置 字符 串 替代 变量 
703 设置 SPARK HOME 字符 串 替代 变量 ( 见 图 11-25 ) 


New String Substitution Variable 


Name: |SPARK_HOME 


Value: i Browse... 2. Value 输入 “/usr/local/spark” 


Description: [ | 


Cancel 


图 11-25 设置 SPARK_HOME 字符 串 替代 变量 


1. Name 输入 "SPARK_ HOME” 


人 4 确认 已 设置 SPARK_HOME 字符 串 替代 变量 


回 到 设置 字符 串 替 代 变量 的 屏幕 显示 界面 ， 确 认 SPARK_HOME 已 设置 好 了 。 然 后 单 击 
New 按钮 添加 其 他 字符 串 奉 代 变量 ， 如 图 11-26 所 示 。 


国 | String substiurlon SPARK_HOME 


> Dov Create and configure Atring substitution variables. 
Run/Debug 
ariab Descri 
Console 证 
External Tools SPARK_HOME /usr/local/spark. | a 
» Launching 
Perspectives Remove 
String Substitution | 
View Management 2. 单 击 New 按钮 
» scala 
@ Cancel OK 


图 11-26 ”确认 已 设置 的 SPARK HOME 字符 串 蔡 代 变量 
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705 设置 HADOOP_CONF_DIR 字符 串 替代 交 量 ( 见 图 11-27 ) 


New String Substitution Variable i 输入 *HADOOP_CONF_DIR” 


usr/local/hadoop/etc/hadoopl|" 


Description: | 


Cancel 


图 11-27 设置 HADOOP_CONF_DIR 字符 串 替代 变量 


G06 确认 已 设置 HADOOP_CONF_DIR 字符 串 替 代 变 量 


按钮 添加 其 他 字符 串 替代 变量 ， 如 图 11-28 所 示 。 


1. 已 设置 的 HADOOP_CONF_DIR 


string substitution variables. 


国 | String Substitutlon 


人 记 。 createand config 

v Run/Debug 
Console 
External Tools 


HADOOP_CONF DIR_| /usr/locaV/hadoop/etc/hal pr 
i 


neni SPARK_HOME /usr/ocal/spark 
Perspectives Remove 
String Substitution 
View Management 2. 单 击 New 按钮 
» scala az 
®@ Cancel OK 


图 11-28 ”确认 已 设置 HADOOP_CONF_DIR 字符 串 替 代 变 量 


I07 设置 PYSPARK_PYTHON 字符 串 替代 变量 ( 见 图 11-29 ) 
New String Substitution Variable 


1.Name 输入 “ PYSPARK_ PYTHON” 


Value: /home/hduser/anaconda2/bin, Brew5e 一 2. Value 输入 “/home/hduser/ 


Description: anaconda2/bin/python” 


Name: 


Cancel 


l= 
图 11-29 设置 PYSPARK_PYTHON 字符 串 替代 变量 
E308 确认 已 设置 PYSPARK_PYTHON 字符 串 替 代 变 量 


11-30 所 示 。 
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回 到 设置 字符 串 蔡 代 变量 界面 ， 确 认 HADOOP_CONF_DIR 已 设置 好 了 。 然 后 单 击 New 


回 到 设置 字符 串 替 代 变 量 的 屏幕 显示 界面 ， 确 认 到 PYSPARK_PYTHON 已 设置 ， 如 图 
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Preferences 


1. 确认 已 设置 3 个 字符 串 


String Substitutlon 


perspectives & | Createandconfigurestringsubstitutionvar#bles 
String Substitutior Variable Descriptio New-. 
View Management HADOOP_CONF_DIR | /usr/locaV/hadoop/etc/ha 
* Scala PYSPARK_PYTHON /home/hduser/anaconda 
* ScalaWorksheet SPARK_HOME /usr/locaV/spark 
* Team 
本 
vatidation 2. 单 击 OK 按钮 完成 设置 
@ Cancel 


11-30 ”确认 已 设置 3 个 字符 串 替代 变量 


PyDev 设置 Python 链接 库 


Python 是 解释 性 语言 ， 所 以 必须 设置 解释 器 (Interpreter) 。 
全 To1 依次 选择 Window 一 Preferences 菜单 选项 ( 见 图 11-31 ) 


Ha Package Explorer 3 BS% v=0 


依次 选择 Window 一 
Preferences 菜单 选项 


图 11-31 选择 菜单 选项 


人 PyDev 一 Interpreter 一 Python Interpreter ( 见 图 11-32 ) 
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2. 选择 后 会 出 现 Python 


| Python Interpreters ee 
(periter te Interpreter 设置 画面 
* Javascript Python interpreters (e.g:: python.exe). Double-click torename. 
» Maven 
pel Name Location Mages 
» Plugin Development Quick Auto-Config 
Emal cm 
[ Advanced AutoConfig 
» etor 1. 选择 PyDev Interpreters 一 一 
re] Consol 一 Python Interpreter 到 
IronPython interpreter Down 
[Con merpreter mLibraries | Forced Builtins | Predefined 天 Environment © string Substitutionyariables 
Logging System PYTHONPATH. Reorder with Drag & Drop. 
Pylint 
Pyunit New Folder 
» Run/Debug New Egg/Zip(3) 
Scripting PyDev 一 一 一 一 一 一 
Task Taos Denow 
® anel “| EREE 国 


11-32 打开 Python Interpreter 设置 界面 


人 63 自动 配置 设置 一 一 搜索 适合 安装 的 版 本 


单 击 Advanced Auto-Config， 系 统 会 搜索 适合 安装 的 Python 版 本 让 我 们 选择 〈 如 图 11-33 
所 示 ) 。 


[ i | 网 i Advanced Auto-Config 
* Instal/Update Multiple possible interpreters are available. 
>» Jave Please select which one you want to Install and conrlgure. rr 
» Javascript @ /usr/bin/python 
>» Maven @ Jusr/bin/pythonz Quick Auto-Config 
”Play 四 /usrbi hon3.4 
» Plug-in Developmen 
vv PyDev 四 /usrbiypython3 Bao 
Builders 中 了 up 
» Editor 2. 选择 Python 2.7 版 本 
* Interactive Consol Down 
汪汪 全 bstitution variables 
Ironpython inten| 
JythonInterpret 
Python Interpret | New Folder 
Logging 一 一 
PYLImk -NewBaa/zie(s}. 
PyUnit Remove 
» Run/Debug er 
@®@ Cancel OK 


图 11-33 ”搜索 适合 安装 的 版 本 
04 自动 配置 设置 显示 需要 安装 的 链接 库 


系统 会 显示 需要 安装 的 lib 链接 库 ， 单 击 OK 按钮 ， 如 图 11-34 所 示 。 
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Select the folders to beadded to the SYSTEM pythonpatht 


IMPORTANT The folders for your PROJECTS should NOT be added here, but in your project configuration. 


check:http://pydev.org/manual_101_interpreter.html or more details. 


芒 盖 /uswtib/python2.7/platx86 
久生 /ust/lib/python2.7/libtk 

名 而 /usrlib/python2.7/ib-dynload 

共 而 /ust/local/lib/python2.7/dist-packages 

罚 细 /ust/lib/python2.7/dist-packages 

葵 面 /ust/lib/python2.7/dist-packages/PlLcompat 
可 电 /usr/lib/python2.7/dist-packages/gtk-2.0 


SelectAllnotin workspace Select Al Deselect All 


图 11-34 显示 需要 安装 的 链接 库 
J05 确认 已 安装 的 lib 链接 库 ( 见 图 11-35 ) 


[ 国 Python Interpreters Ororr 
ep E 
» nstalVupdate Pythoninterpreters (eg: python.exe). Double-click to rename. 
» Java Name Location pr 
» JavaScript Bpython /usr/bin/pythonz.7 
» Maven Qulck Auto-Config 
» Plugin Developmen 
7 PyDev Bemove 
Builders yp 
* Editor 
Down 


* Interactive Consol 
Interproters 


MLibraries | Forced Builtins Predefined hEnvironment | @ StringSubstitution Variables 
ronpython Interl 


System PYTHONPATH，Reorder withDroy & Drop. 


Jython Interpret: 
pythonmiepret | ™ systemlibs er 
Logging 克 /usr/lib/pythonz.7 
pyLink 克 /usr/ib/python2.7/platx86_64tinux-gnu New Egg/Zip(s) 
Pyunit 遇 /ucr/lib/python2.7/lib-tk 和 
> Run/Debug 盖 /usr/lib/python2.7/lib-dynload 
Scripting PyDev 晶 /usr/local/lib/pythonz.7/dist-packages 确认 已 安装 的 lib 链接 库 
Task Tags 六 /usr/tib/pythonz.7/distpackeges 
» Run/Debug Jusr/lib/python2.7/dist.packaqes/PlLcompat 
» Scala 国 /usr/lib/python2.7/distpackages/gtk-2.0 
» Scala Worksheet 国 /usr/pypython2 7/discpackages/ubuntussoctent 
2 DE RestoreDefaults| Apply 
® Concel OK 


图 11-35 确认 已 安装 的 链接 库 


115 PyDeyv 设置 anaconda2 链接 库 路 径 


后 续 我 们 会 使 用 到 一 些 python 链接 库 例如 numpy pandas 所 以 我 们 必须 添加 anaconda2 
路 径 /home/hduser/anaconda2/lib/python2.7/site-packages。 


245 


寿 ， Python+Spark 2.0+Hadoop 机 器 学 习 与 大 数据 实战 


人 01 单 击 New Folder 按钮 ( 见 图 11-36 ) 


加 


rep 
InstalVupdate 


» Javescript 
> Maven 

» Play 

» Plugn Developmen 


Builders 
* Editor 
» Interactive Consol 
nterprerers 
Ironpython Interl 
Mthoninterpret' 
Python Interpret 
Logging 
Pyuint 
Pyunic 
» Run/Debug 
Scripting PyDev 
Task Tags 
Run/Debug 
scala 
Scala worksheet 
Teem 


@@ 


Python Interpreters 


Pythoninterpreters (eg: python exe). Doubleclick to rename. 


Name 
python 


Location 


/usr/binfpythonz.7 


mLibraries Forced Builtins Predefined 喝 Environment 


System PYTHONPATH. Reorder withDragé& Drop. 


v mh System libs 
面 /usr/ib/pythonz2.7 
面 /usr/lib/pythonz.7/plat-x86_64-linux-gnu 
面 /usrytib/pythor2.7tibtk 
面 /usr/lib/python2.7/lib-dynload 
/usr/locaVlib/python2.7/dist-packages 
加 /usr/up/pythonz.7/aisecpackages 
/usr/lib/python? 7/dist-packages/PlL compat 
/usr/ib/pythonz.7/dist-packages/gtk-2.0 


New... 
Quick Auto-Confio 
Advanced Auto-Config 


Remove 


® String Substitution) 


/usr/ib/python2.7/dist-packages/ubuntussoclient 


New Egg/Zip(s) 
Remove 
Restore Defaults Apply 
Concel ok 


11-36 单 击 New Folder 按钮 


anaconda2 lib | python2.7 | site-packages 


人 3 确认 已 经 设置 路 径 


单 击 “ 文 件 系 统 ” 


< 大 小 


局 alabaster-0.7.7-py2.7.egginfo 
项 anaconda_client1.2.2-py2.7.egginfo 


大 argcomplete-1.0.0py2.7.egginfo 


4 | 大 hduser 
位 置 ( 
位 置 (P) 名 称 
QQ 搜索 局 abstract_rendering 
合 最 近 使 用 的 局 alabaster 
国 点 面 
国 hduser 
转 桌 面 大 argcomplete 
四 文件 系统 
sF_pythonwo... 局 astropy 
VANXANNIT > 


丽 astropy1.1.1-py2.7-inux-x86_64.egginfo 


取消 (器 


/home/hduser/anaconda2/lib/python2.7/site-packages 路 径 ( 见 图 11-37 ) 


| 


创建 文件 卖 (L) 


/home/hduser/anaconda2/lib/python2.7/site-packages| 3. 输入 anaconda2 链接 库 路 径 


已 修改 

2016 年 06 月 26 日 
2016 年 06 月 26 日 
2016 年 06 月 26 日 
2016 年 06 月 26 日 
2016 年 06 月 26 日 
2016 年 06 月 26 日 
2016 年 06 月 26 日 


2016 年 06 月 26 晶 4 单 确定 钮 


2016 年 9526 


图 11-37 设置 anaconda2 链接 库 路 径 


确认 已 经 添加 hduser/anaconda2/lib/python2.7/site-packages 路 径 ， 如 图 11-38 所 示 。 
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mep 
| Iinstal/Update 
av 

”Javascript 

> Maven 

> play 

> Plugin Developmen 
了 PyDev 

Builders 

Editor 

Interactive Consol 

Interpreters 
ironPychon ncer 
Jython nterpret 
PythonInterpret 
Logging 

PyLint 

PyUnit 
Run/Debug 
ScriptingPyDev 
TaskTags 

» Run/Debug 

> scala 


|。 srala winrtehear 


@ 


Python Interpreters 


Python interpreters {e.9: python.exe). Doubleclick to rename. 


Name Locatlon Fa 


python fuss/binf/python2.7 
Quick Auto-Config 


AdvancedAuto-config 
Remove 


mhLibraries | Forced Builtins Predefined 也 Environment ® StringSubstitutionVariables 


System PYTHONPATH. Reorder with Drag 8 Drop. 
而 /usr/lib/python2.7/platx86_64-linux-gnu | NewFolder | 
访 /usrub/pythonz.71ub-tk i 
全 /usr/lib/python2.7/lib-dynload 

lusr/ocal/lib/python2.7/dist-packages Bemove 

二 Jusr/lib/python?2 7/dist:packages 

/usr/lib/python2.7/distpackages/PlLcompat 


Cancel or 


11-38 ”确认 已 经 设置 路 径 


PyDev 设置 Spark Python 链接 库 


3 


当 我 们 执行 Spark Python 程序 时 ， 必 须 引 用 Spark Python 链接 库 ， 所 以 我 们 必须 设置 
PyDev 解释 器 Spark Python 链接 库 才 能 够 正确 执行 。 


全 TI01 设置 Spark Python 链接 库 ( 见 图 11-39 ) 


» General 
pAnt 
» Help 
* Instal/Update 
> java 
* Javascript 


Maven 
play 
Plugin Development 
PyDev 

Builders 


TY Interpreters 
Ironpython Interpreter 
Jython Interpreter 
Pythoninterpreter 

Loggng 


@ Python Interpreters 


Pythoninterpreters (e.g.: python.exe). Double-dick to rename. 


Name Location pe 


时 python /usr/bin/python2.7 


» Editor mLibraries | Forced Builtins | Predefined 咕 Environment | © String Substitution Variables 
» Interactive Console System PYTHONPATH. Reorder with Drag& Drop. 


™ mh system libs 


Quick AutoConfig 


Advanced Auto-Config 


Remove 


面 /ust/lib/python2.7 
各 /usWlib/pythonz 7/platxaa_6a4inux-gnu 


六 Just/Ub/python2.7/Nb-tk Remove 


图 11-39 设置 Spark Python 链接 库 


单 击 New Egg/Zip(s) 按 钮 
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DT02 选择 链接 库 


Spark 的 Python 链接 库存 储 在 /usr/local/spark/python/lib 路 径 中 , 有 两 个 文件 :py4j-0.10.1-src. 
zip 和 pyspark.zip, 如 图 11-40 所 示 。 因为 链接 库 的 扩展 名 是 zip, 所 以 必须 选择 *.zip 的 链接 库 。 


4. 选择 两 个 链接 库 


1. 选择 *.zip 的 链接 库 


51.4kB 2016 征 07 月 20 日 
437.3k8 2016 年 07 月 20 日 


5. 单 击 “ 确 定 ”按钮 


已 .四 


图 11-40 选择 链接 库 
03 确认 已 经 安装 的 链接 库 ( 见 图 11-41 ) 


国 | PythonInterpreters "or 

人 Python iinterpreters (e.g.:: python.exe). Double-click to rename. 

， Ant 

» Help es _Location New... 

nn usrybi . 

» InctalVupdate Pytho' /sr/bi/pythonz. Tt 

* Java 

» Javascript Adwanced Auto-config 

» Maven Pe 

» play 一 

* Plugin Developmen up 

DN Down 
Builders 

» Editor mLibraries | Forced Builtins | Predefined 喝 Environment | ® String Substitution Variables 

* Interactive Consol System PYTHONPATH. Reorder with Drag& Drop. 

™ Interpreters EE 
IronPython nterl 而 /usr/lib/python2.7/Uib-dynload NewFolder _ 
Jython Interpret’ 间 hss/ocaV Wb/python2.7/dist packages New Egg/7ip(s) 
Python Interpret 冯 /usr/lib/python2.7/dist-packages | 
Logging 而 /usr/lib/python2.7/dist-packages/PlLcompat Remove 
PyLint 病 /usr/lib/python2.7/dist pockages/gtk-2.0 
Pyunit 二 /usr/lib/python2.7/dist-packages/ubuntu-sso-client | 

» Run/Debug 蜀 /home/hduser/anaconda2/lib/python2.7/site-packages 

Scripting PyDev Jusr/local/spark/python/lib/py#j-0.10.1-src.zip 确认 已 经 安 链接 库 
Task Tags /usrhoca/spark/python/lib/pyspark.2ip 

» Run/Debug 

~ ‘Restore Defaults Apply 
@ co i 


图 1141 确认 已 经 安装 的 链接 库 
量 可 PyDev 设置 环境 变量 


当 我 们 在 eclipse 执行 Spark Python 程序 时 ， 必 须 设置 以 下 两 个 环境 变量 : 
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@ ” 当 我 们 在 eclipse 执行 Spark Python 程序 时 ， 必 须 设 置 SPARK_HOME (Spark 的 
安装 路 径 ) 环境 变量 。 
@ ” 当 我 们 在 eclipse 执行 Python Spark 程序 时 ， 必 须 读 取 HDFS 文件 ， 所 以 必须 设置 
HADOOP_CONF_DIR 环境 变量 ( 这 是 Hadoop 配置 文件 的 路 径 ) 。 


人 1) 切换 到 Environment 页 面 ( 见 图 11-42 ) 


男 Python Interpreters = 
= ep a 
* Instal/Update Name Location New 
， om pyhon eaybaypyiena7 
» Javescript Quick Auto-Config 
» Maven 1. 切换 到 Environment 页 面 Advanced Auto-Config 
* play 
* plug-in Developmen Remove 
v PyDev 
Bullders 
* Editor 
> Interactive Consol ~ [enviconmen: | 
mibraries | Forced Builtins Predefined| environment | @ stringsubstitution variables 六 4 二 下 天 
WwW 2. 单 击 New 按钮 打开 添 
Ironpythoninten | Endironment variables to set- es ce 
Jyrhoninterpres | | [Variable wa 加 环境 变量 的 对 话 框 
Pythonlnterpret 
Loogging SelecL 
PyLint Name: | 
Le Value: Variables 
» Run/Debug 
Scripting PyDev | 天 全 
Task Tags Cancel 3. 添加 环境 
» Run/Debug sa 证 框 
RE EY E 
~ scalo ee 变量 的 对 话 框 
Be fe -por [ee 
®@ Cancel ok 


11-42 切换 到 Environment 页 面 进行 设置 
人 2 添加 SPARK HOME 环境 变量 


在 添加 环境 变量 的 对 话 框 中 ， 将 Name 设置 为 SPARK HOME 、YValue 设置 为 
${SPARK_ HOME}， 如 图 11-43 所 示 。 其 中 ，${SPARK_HOME} 是 代表 我 们 在 第 11.3 节 设 置 


的 字符 串 替 代 变 量 。 
2. Value 输入 “${SPARK_HOME}” 


3. 单 击 OK 按钮 


图 11-43 添加 SPARK_ HOME 环境 变量 


New Environment Variable 


S{SPARK_HOM 晶 


Name: 


Value: 


Cancel 


人 3 确认 已 创建 SPARK_HOME 环境 变量 ( 见 图 11-44 ) 
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eference 
[Eee Python Interpreters i 
: Es bPythoninterpreters (e.g: pythonexej Doubleclick to rename. 

Pat es eyeythonz7 “ee 
St , Cenc mocorma | 

» Pplugin Developme Advanced Auto-Config 


v Pyoev 1. 完成 后 就 可 以 看 到 Bemove 


Builders 


» Editor SPARK_HOME 环境 变量 w 
» Interactive Consd| Down 
Interpreters 

Ironpython interp! mhLibraries Forced Builtins Predefined | 喝 Ervir « © stringSubstitution Variables 


Ihon Interpreter 


Environment variables toset 
Pythonlnterprete 


Cr Variable vaue 
Pyunit 一 一 一 一 
Run/Debug Ed 
sourceLoator 上 .| 2. 单 击 New 境 变 Remove 


@ cnc] | 
图 11-44 确认 已 创建 SPARK_HOME 环境 变量 


C304 添加 HADOOP_CONF_DIR 环境 变量 ( 见 图 11-45 ) 


1. Name 输入 “HADOOP_CONF_DIR” 


2. Value 输入 “${HADOOP_CONF_DIR}” 


3. 单 击 OK 按钮 


11-45 添加 HADOOP_CONF_DIR 环境 变量 


人 5 确认 已 创建 HADOOP_CONF_DIR 环境 变量 ( 见 图 11-46 ) 
DEE 


加 Python Interpreters 
: InstalVUpdate Python interpreters (e.9: python.exe). Double-click to rename. 
Lam 
» Javascript Mame leontion New… 
es @ python [usr/bin/python2.7 
» Pay Quick Auto-Config 
» Plugiin Develop cs Ny Advanced Auto-Config 
，* 完成 后 可 以 看 到 HADOOP 人 
noe -= Bemove 
Builders 诗 恋 最 
Be CONF_DIR 环境 变量 up 
上 Interactive Conso Do 
™ Interpreters 
IronPythonInterpl mLibraries | Forced Builtins Predefined | 本 Environment | @ string substitution Variables 
ehon interprecer 
Environment variables to Se 上 
Pythoninkerpretel 
tooging Varabk sale Lee 
Pytint select-。 | | 
Pyunit 
v Run/Debug :dt | 
SourceLocator 下 Remove | 
Te 2. 单 击 OK SS 
= i EE 


图 11-46 确认 已 创建 HADOOP_CONF_DIR 环境 变量 
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306 更 新 中 ( 见 图 11-47) 
单 击 OK 按钮 后 就 会 出 现 更 新 界面 ， 如 图 11-47 所 示 。 


[7 Module resolved: dbus.server 


图 11-47 更 新 内 容 


新 建 PyDev 项 目 


之 前 我 们 已 经 完成 PyDev 的 设置 ， 接 下 来 我 们 可 以 新 建 PyDev 项 目 。 
人 ET) 依次 选择 File 一 New 一 Project... 菜单 选项 ( 见 图 11-48 ) 


图 11-48 选择 新 建 项 目 菜单 选项 


人 2 选择 PyDev 一 PyDev Project ( 见 图 11-49 ) 


Select a wlzard 


Wizards. 


» © Plug-in Development 
YE Pyoev 
PyDev Django Project 


3. 单 击 Next 按钮 


» © Examples 


[ei 


后 


Cancel 


图 11-49 选择 新 建 PyDev Project 项 目 
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人 63 输入 项 目 名 称 ( 见 图 11-50 ) 


PyDev Project 
Createa newPyDevProject. 


Project name| [Pythonproject 


Project contents: 
男 use default 


Directory Browse 
Project type 

Choosethe project type 

图 Python O Jython O Ironpython 

Grammar Version 


[27 


Interpreter 


| Default 


Elick here to confiqure an interpreter not listed 


图 Add project directory to the PYTHONPATH 

DO create'src folder and add it to the PYTHONPATH 

D Greate links to existing sources (select them onthe next page) 
了 Don'tconfigure PYTHONPATH (to be done manually later on) 
Workingsets 


口 Add project to workingsets 


Warkings 


2. 单 击 Finish 按钮 


@ <Back Next> Cancel 


图 11-50 输入 项 目 名 称 
D04 单 击 Yes 按钮 ( 见 图 11-51 ) 


perspective now? 


单 击 Yes 按钮 
口 Remember my decision 
-i 


图 11-51 


@ This kind of project is associated with the PyDev perspective. Do you want to open this 


CT05 已 经 创建 的 项 目 
完成 后 就 可 以 看 到 已 经 创建 的 项 目 ， 如 图 11-52 所 示 。 
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Ee 已 外 站 "DO-q-7 图 三 口 四 尖 电 


已 经 创建 的 项 目 


11-52 已 经 创建 的 项 目 


加 入 WordCount.py 程序 


人 ED) 加 入 新 程序 ( 见 图 11-53 ) 


WM PyDev Package Explorer 只 各 入 | 荐 > 三 


Po 


Project. 
Folder 


Link to Existing Source 
Source Folder 


图 11-53 ”加 入 新 程序 
B02 输入 程序 文件 名 ( 见 图 11-54) 


Fle 


Createa new file resource. 


Enter or select the parent folder 


Pythonproject 


» BE pythonprojert 


1. 输入 程序 文件 名 WordCount.py 
= 2. 单 击 Finish 按钮 


图 11-54 输入 程序 文件 名 
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人 3 已 加 入 的 新 程序 ( 见 图 11-55 ) 


av 二 昌国 三口 目 se @z"D-q-7- 
(Pyoev Package xplorer =% 3 ”aeeena 
“pmhonprolect | 


python VesrbinVpytiorzD 可 以 在 此 输入 
Python 程序 


11-55 ”显示 已 加 入 的 新 程序 


11.10 输入 WordCount.py 程序 


人 ED) 导入 相关 链接 库 ( 见 表 11-2 ) 
表 11-2 导入 相关 链接 库 
语法 说 明 


# -#- coding: UTF-8 -*- 设置 为 utf-8 编码 


from pyspark import SparkContext 导入 SparkContext 
from pyspark import SparkConf 导入 SparkConf 


人 ER2 CreateSparkContext() 


请 参考 第 8.1 节 介 绍 。SparkContext 是 开发 Spark 应 用 程序 的 入 口 。 当 我 们 使 用 IPython 
Notebook 时 ， 可 以 直接 使 用 SparkContext。 例 如 ， 我 们 可 以 直接 使 用 sc.master。 可 是 当 我 们 
开发 Python Spark 应 用 程序 时 ， 则 必须 自行 创建 SparkContext。 后 续 所 有 程序 都 需要 创建 
SparkContext， 所 以 我 们 创建 CreateSparkContext() 函数 ， 以 便 后 重复 使 用 : 


def CreateSparkContext () : 
sparkConf = SparkConf() \ 
.SetAppName ("WordCounts") \ 
.Set ("spark.ui.showConsoleProgress", "false")\ 
sc = SparkContext (conf = sparkConf) 
print ("master="+sc.master) 
SetLogger (sc) 
SetPath (sc) 
return (sc) 


以 上 程序 代码 的 SparkConf 指令 很 长 ， 为 了 方便 阅读 ， 我 们 将 一 条 程序 指令 分 为 了 多 行 。 在 
Python 中 将 程序 指令 分 为 多 行 必须 用 “\” 符 号 连接 指令 。 以 上 程序 代码 的 详细 说 明 如 表 11-3 所 示 。 
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表 11-3 ”程序 代码 说 明 


设置 App 名 称 ， 此 App 名 称 会 显示 在 Spark 或 Hadoop 


‘setAppName(" WordCounts") YARN UI 界面 


.set("spark.ui.showConsoleProgress","false") ”| 设置 不 要 显示 Spark 执行 进度 ， 以 免 屏幕 显示 界面 太 乱 


CUI03 设置 不 要 显示 太 多 信息 


Spark 程序 默认 会 显示 很 多 信息 ,这 些 信息 对 于 调试 有 帮助 。 不 过 信息 太 多 也 会 让 程序 执 
行 界面 很 乱 ， 所 以 我 们 编写 下 列 函 数 ， 设 置 不 要 显示 太 多 信息 。 
def SetLogger( sc ): 
logger = sc._jvm.org.apache.1o0g4j 
logger.LogManager.getLogger ("org") .setLevel (logger.Level .ERROR) 


logger.LogManager.getLogger ("akka") .setLevel (logger .Level .ERROR) 
logger.LogManager.getRootLogger () .setLevel (logger.Level .ERROR) 


C04 配置 文件 读 取 路 径 
定义 全 局 变量 Path， 配 置 文件 读 取 路 径 。 


def SetPath(sc): 
global Path 
if sc.master[0:5]=="local": 
Path="file:/home/hduser/pythonwork/PythonProject/" 
else: 
Path="hdfs://master:9000/user/hduser/" 


以 上 程序 判断 : 


@ 如 果 sc.master[0:5] 是 "local"， 代表 当 前 是 本 地 执行 ， 读 取 本 地 文件 。 
@。” 如果 sc.master[0:5] 不 是 "local"， 就 有 可 能 是 YARN Client 或 Spark Stand Alone， 
必须 读 取 HDFS 文件 。 


C705 编写 主 程序 代码 
Python 程序 中 的 _ name_ 可 以 用 来 分 辩 程序 是 直接 执行 还 是 被 import。 当 我 们 直接 执 
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行 WordCount 而 不 是 被 import 时 ，_name ”变量 的 值 是 "_ main " ,所 以 会 执行 下 列 让 
判断 语句 之 后 的 主 程序 代码 。 

进入 主 程序 代码 后 ， 程 序 会 显示 开始 执行 ， 然 后 调用 CreateSparkContext() 创建 
SparkContext sc。 


G06 读 取 文本 文件 


使 用 sc.textFile 读 取 文本 文件 ， 在 此 我 们 读 取 本 地 的 README.md 文本 文件 作为 范例 ， 
并 显示 文本 文件 的 行 数 。 


四 D07 执行 Map/Reduce 运算 
执行 Map/Reduce 运算 如 下 : 


以 上 程序 代码 的 详细 说 明 如 表 11-4 所 示 。 
表 11-4 ”程序 代码 说 明 


说 明 
将 textFile 经 过 一 连 串 map 与 reduce 运算 创建 countsRDD 
用 空格 符 分 隔 文字 ， 取 出 每 一 个 英文 单词 


用 map 转换 为 Key-Value (word,1) 


使 用 reduceByKey 将 相同 的 key 值 相 加 


countsRDD = textFile 

.fatMap(lambda line: line.split( ")) 
.map(lambda x: (x, 1)) 
‘TeduceByKey(lambda x,y :x+y) 


print(" 文字 统计 共 "+str(countsRDD. 
countO)+" 项 数据 ") 


人 08 保存 文件 


countsRDD 使 用 saveAsTextFile 将 结果 保存 至 本 地 目录 。 在 此 我 们 加 上 使 用 try catch 语 
法 。 如 果 输 出 目录 已 经 存在 就 会 发 生 错误 ， 并 显示 错误 信息 。 


打印 countsRDD 项 数 
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区 本 

countsRDD.saveAsTextFile(Path+ "data/output") 
except Exception as e: 

print(" 输出 目录 已 经 存在 ， 请 先 删除 原 有 目录 7) 
sc.stop() 


人 9 WordCount.py 完成 后 的 屏幕 显示 界面 


程序 代码 输入 后 ， 屏 幕 显示 界面 如 图 11-56 所 示 。 


|File Edit Source Refactoring Source Refactor Refactor Navigate Search Project Scala Run Window Help | 
Ee 宇 思 国明 唱和 后 和 "OW 外， = - 


鼎 Package Explorer 器 °° 0 Bwordcount 3 


from pyspark import SparkContext 


lv & pythonproject 
from pyspark import SparkConf 


* 台 data 


B® WordCount.py 


def SetLogger( sc ): 
logger = sc._jvm.org.apache.log4j 
logger.LogManager.getLogger( “0/8'). setLevel( logger.Level.ERROR ) 
logger.LogManager.getLogger( “akka ).setLevel( logger.Level.ERROR ) 
logger.LogManager.getRootLogger().setLevel(logger.Level.ERROR) 


11-56 ”WordCount.py 完成 后 的 界面 


创建 测试 文件 并 上 传 至 HDFS 目录 


后 续 我 们 将 介绍 在 不 同 模式 运行 WordCount.py， 所 以 我 们 把 文件 复制 到 本 地 项 目 目 录 ， 
再 把 测试 文件 上 传 到 HDFS 目录 。 


(To1 复制 本 地 测试 文件 


后 续 我 们 必须 读 取 文本 文件 ， 使 用 spark 的 README.md 文件 作为 测试 文件 。 在 “ 终 
端 ” 程 序 中 执行 下 列 命令 〈 见 图 11-537) ， 首 先 创建 项 目 目录 ， 然 后 复制 测试 文件 。 


hduser@master:~$ mkdir -p ~/pythonwork/Pythonproject/data 
hduser@master:~$ cp /usr/local/spark/README.md ~/pythonwork/Pythonproject/data 
hduser@naster:~$ 


图 11-57 复制 本 地 测试 文件 


人 2 启动 Hadoop Multi Node Cluster 


先 启动 之 前 创建 的 Hadoop Multi Node Cluster 的 所 有 虚拟 机 ， 如 图 11-58 所 示 。 
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章 Oracle VM VirtualBox 管理 器 - OO x 
管理 (F) 控制 (M) 大助 (H) 
多 a y 地 闻 隐 HD) 回 备份 [条 统 块 照 ]G) 
新 建 QW) 设 次 G) 清和 际 ” 吕 动 (T) 

master __ EE 同 预览 人 
Pas 呈 


end 操作 系统 。 Ubuntu (54-big 
国正 二 Te 


个 一 内 存 大 小 ，4096 MB 
©@ FEE 局 动 顺序 ， 软 张 , 光 红 ,硬盘 
重 件 加 速 。?T-XAMD"Y, 诬 大 分 页 


图 11-58 ”启动 Hadoop Multi Node Cluster 
人 3 启动 Hadoop cluster 
在 master 服务 器 的 “终端 ”程序 中 输入 下 列 命 


> ”启动 Hadoop 群集 cluster 
start-all.sh 


执行 后 屏幕 显示 界面 如 图 11-59 所 示 。 


hduser@master:~$ start-all.sh 

This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh 

starting namenodes on [master] 

master: starting nanenode, logging to /usr/local/hadoop/logs/hadoop-hduser-nanenode-master .out 
datal: starting datanode, logging to /usr/local/hadoop/logs/hadoop-hduser-datanode-datal.out 
data2: starting datanode, Logging to /usr/local/hadoop/logs/hadoop-hduser-datanode-data2.out 
data3: starting datanode, Logging to /usr/local/hadoop/logs/hadoop-hduser-datanode-data3.out 
Starttng secondary nanenodes [0.0.0.0] 

8.6.6.6: starting secondarynanenode, logging to /usr/local/hadoop/logs/hadoop-hduser-secondarynanenode-mas 
[er ,out 

starting yarn daemons 

starting resourcemanager, logging to /usr/local/hadoop/logs/yarn-hduser-resourcenanager-naster .out 
datal: starting nodemanager, logging to /usr/LocaL/hadoop/Logs/yarn-hduser-nodemanager-datal.out 
data2: starting nodemanager, logging to /usr/local/hadoop/logs/yarn-hduser-nodemanager-data2.out 
ldata3: starting nodenanager, logging to /usr/local/hadoop/logs/yarn-hduser-nodenanager-data3.out 


图 11-59 启动 Hadoop cluster 


个 JI04 复制 测试 文件 到 HDFS 
我 们 必须 先 将 输入 文件 复制 到 HDFS， 可 在 “终端 ”程序 中 输入 下 列 命 令 : 


> 创建 HDFS 测试 目录 
hadoop fs -mkdir -p /user/hduser/data 


> ”查看 HDFS 测试 文件 
hadoop fs -ls /user/hduser/data/README .md 


执行 后 屏幕 显示 界面 如 图 11-60 所 示 。 
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hduser@master: ~ 


hduser@naster:~$ hadoop fs -mkdir -p /user/hduser/data 
hduser@naster:~$ hadoop fs -copyFromLocal /usr/local/spark/README.md /user/Héuse 


r/data/README .md 
/user/hduser /data/H 


测试 文件 已 上 伟 


到 HDFS 


hduser@master:~$ hadoop fs -ls /user/hduser/data/README.md 
-rw-r--r-- 3 hduser supergroup 3359 26016-96-26 26:46 
IEADME .md 

hduseremaster:-S 目 


图 11-60 复制 测试 文件 到 HDFS 


使 用 spark-submit 执行 WordCount 程序 


之 前 我 们 已 经 编辑 完成 _ WordCount.py 程序 。 接 下 来 我 们 将 在 “终端 ”程序 界面 用 
spark-submit 执行 Python Spark application 。 


人 Ri) spark-submit 详细 介绍 
spark-submit 常用 的 选项 如 11-5 所 示 。 
表 11-5 spark-submit 常用 选项 
选项 说 明 


eeeutor 各 所 使 用 的 内 存 


-nameNAME 要 运行 的 application 名 称 ， 此 名 称 后 续 会 显示 在 Hadoop 或 Spark 
Web UI 界面 中 


Python 程序 文件 名 要 运行 的 Python 程序 


--master MASTER_URL 选项 可 设置 Spark 在 什么 环境 中 运行 ， 如 表 11-6 所 示 。 
表 11-6 --master MASTER_URL 选项 说 明 


MASTER URL 说 明 


在 本 地 运行 ， 只 使 用 一 个 线 和 
在 本 地 运行 ， 使 用 K 个 线程 会 使 用 本 地 计算 机 的 多 核 CPU) 


在 本 地 运行 ，Spark 会 自动 尽量 利用 本 地 计算 机 上 的 多 核 CPU 


spark://HOST:PORT 在 Spark Standalone Cluster 上 运行 ， 例 如 spark://master:7077 (默认 
port 是 7077) 


mesos://HOST:PORT 在 Mesos cluster 上 运行 (默认 port 是 5050) 


259 


寿 ;， Python+Spark 2.0+Hadoop 机 器 学 习 与 大 数据 实战 


( 续 表 ) 


MASTER URL 


YARN 在 YARN Client 上 运行 ， 必 须要 设置 HADOOP_CONF_DIR 或 
YARN_CONF_DIR 环境 变量 


人 2 在 1local 运行 WordCount 
在 “终端 ”程序 中 输入 下 列 命令 ， 在 local 运行 WordCount: 


> 切换 到 WordCount 项 目 目录 
cd ~/pythonwork/PythonProject 


> 在 local 执行 WordCount 
spark-submit --driver-memory 2g --master local[4] WordCount.py 


运行 后 屏幕 显示 界面 如 图 11-61 所 示 。 


hduser@master: ~/pythonw 


hduser@master :~$ ‘cd ~/pythonwork/Pythonproject 
hduser@master :~/pythonwork/Pythonproject$ spark-submit --driver-memory 29 --mast 
er local[4] WordCount.py 
开始 运行 RunWordCount 
16/68/23 13:23:56 WARN NativeCodeLoader: Unable to load native-hadoop library fol 
r your platform... using builtin-java classes where applicable 
master=local[4 
开始 读 取 文本 文 
文本 文件 共 95 行 
文字 丢 计 共 269 项 训 据 
文本 文件 ... 


图 11-61 在 local 运行 WordCount 


spark-submit 命令 的 详细 说 明 如 表 11-7 所 示 。 
表 11-7 spark-submit 命令 说 明 


spark-submit spark-submit 命令 


--driver-memory 2g 设置 driver 程序 使 用 2GB 的 内 存 


在 本 地 运行 ， 使 用 4 个 线程 (会 使 用 本 地 计算 机 上 的 多 核 CPU) 


I03 查看 输出 文件 目录 
运行 完成 后 ， 就 可 以 看 到 输出 的 文件 内 容 。 在 “终端 ”程序 中 输入 下 列 命令 : 
> ”查看 输出 文件 目录 


11 data/output 
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hduser@master :~/pythonwork/Pythonproject$ LL data/output 
总 用 量 26 

drwxrwxr-x 2 hduser hduser 4696 7 月 9 26:16 ./ 
drwxrwxr-x 4 hduser hduser 4696 8 月 19 13:37 ../ 


-rwxrwxr-x 1 hduser hduser 4496 7 月 9 26:16 二 
-rwxrwxr-x 1 hduser hduser 44 7 月 9 26:16 二 
-rwxrwxr-x 1 hduser hduser 9 7 月 9 26:16 二 


图 11-62 ”查看 输出 文件 目录 
C04 查看 输出 文件 内 容 

在 “终端 ”程序 中 输入 下 列 命令 : 

> ”查看 输出 文件 内 容 


cat data/output/part-00000|more 


运行 后 屏幕 显示 界面 如 图 11-63 所 示 。 


hduser@master: ~/pyt 


(u'', 67) 


(u'when', 1) 
(u'Hadoop' , 3) 
(u'"local"’, 1) 
(u'including', 3) 
(u'computation', 1) 


(u'ftle'’, 1) 
(u'high-level', 1) 
(Cu'ftnd'，1) 
(u'web'，1) 
(u'Shell', 
(yu'cluste 

uy'also' 


图 11-63 ”查看 输出 文件 内 容 


| 在 Hadoop YARN-client 上 运行 WordCount 程序 


接 下 来 要 介绍 如 何 使 用 spark-summit 在 Hadoop Yarn 上 运行 WordCount Spark 程序 。 


人 Xi 在 Hadoop Yarn 上 运行 WordCount 程序 
在 “终端 ”程序 中 输入 下 列 命 令 ， 在 Hadoop Yarn 上 运行 WordCount: 


> 切换 至 WordCount 项 目 目录 
cd ~/pythonwork/PythonProject 


> 在 Hadoop Yarn 上 运行 WordCount 


HADOOP_CONF_ DIR=/usr/local/hadoop/etc/hadoop spark-submit --driver-memory 512m 
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--executor-cores 2 --master yarn --deploy-mode client WordCount .py 


运行 后 屏幕 显示 界面 如 图 11-64 所 示 。 


hduser@master: ~/pythonwork/Pythonproject 
hduser@naster:~$ cd ~/pythonwork/Pythonproject 
hduser@mnaster:~/pythonwork/Pythonproject$ HADOOP_CONF_DIR=/usr/local/hadoop/etc/| 
hadoop spark-submit --driver-memory 512m --executor-cores 2 --master yarn --depl| 
oy-mode client WordCount.py 
开始 运行 RunWordCount 
16/08/24 18:33:17 WARN NativeCodeLoader: Unable to load native-hadoop library fo 
r your platform... using builtin-java classes where applicable 

16/98/24 18:33:21 WARN Client: Neither spark.yarn.jars nor spark.yarn.archive is 
back to uploading libraries under SPARK_HOME. 


大 环 恋 取 本 家 件 .… | 目前 是 YARN-client 模式 

文字 统计 共 266 项 数据 

开始 保存 到 文本 文件 

11-64 在 YARN-client 模式 运行 程序 


以 上 spark-submit 命令 的 详细 说 明 如 表 11-8 所 示 。 
表 11-8 spark-submit 命令 说 明 


HADOOP_CONF_DIR= 在 Hadoop YARN 运行 Spark 应 用 程序 时 必须 先 设置 HADOOP_CONF_ 
/usr/local/hadoop/etc/hadoop DIR 环境 变量 ， 请 设置 为 Hadoop 配置 文件 目录 


Sparksubmit 个 信 
设置 drver 各 内 使用 512MB 的 内 在 


在 Hadoop YARN 上 运行 


人 62 查看 执行 完成 后 HDFS 产生 的 目录 
运行 后 ， 输 出 文件 产生 在 HDFS data/output 目录 中 。 在 “终端 ”程序 中 输入 下 列 命令 : 


hadoop fs -ls /user/hduser/data/output 


运行 后 屏幕 显示 界面 如 图 11-65 所 示 。 


hduser@master: ~/pythonwork/Py 


hduser@master :~/pythonwork/Python, 
Found 3 items 


-rw-r- 3 hduser supergroup © 2616-68-23 14:26 /user/hduser/data/output/_SUCCESS 
-rw- 3 hduser supergroup 2352 2616-68-23 14:28 /user/hduser/data/output/part-666606 
-rw-r--r-- 3 hduser supergroup 2144 2616-68-23 14:26 /user/hduser/data/output/part-66661 


11-65 ”查看 执行 完成 后 HDFS 产生 的 目录 
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C303 查看 运行 完成 后 HDFS 产生 的 文件 


在 “终端 ”程序 中 输入 下 列 命令 ， 查 看 输出 文件 的 内 容 。 查 看 HDFS 的 
data/output/part-00000 文件 : 


hadoop fs -cat /user/hduser/data/output/part-00000|more 


运行 后 屏幕 显示 界面 如 图 11-66 所 示 。 


aster: ~/pythonwork/Pythonproject 


hduser@naster :~/pythonwork/Pythonproject$ hadoop fs -cat /user/hduser/data/output/part-09000|more 
(u'', 67) 
(u'storage', 1) 
(u'"local"', 1) 
(Cu'inctudtng'，3) 
(u'computation' , 1) 
(u'file', 1) 
(u'using:', 1) 
(u'guidance', 2) 
(u'scala,', 1) 
(u'environnent', 1) 
(Cu'only', 1) 


图 11-66 查看 运行 完成 后 HDFS 产生 的 文件 
本 D04 在 Hadoop Web 界面 查看 WordCounts 


已 经 在 Hadoop YARN 执行 WordCount 之 后 ， 我 们 就 可 以 在 Hadoop Web 界面 看 到 这 
个 应 用 程序 (Application) 。 可 按照 如 图 11-67 所 示 的 步骤 打开 Hadoop Web 界面 。 


1. 网 址 栏 输入 http://localhost:8088/ 


(Pe All Applications 


~ Clusier ClusterNMiEfrics 
Abou Containers SS Memory Memory Veores Vcores Vcores 
这 ee ee al | Reseved | Used | Tolal | Reserved 
一 2 0 0 2 0 0 ra 2468 08 0 24 0 
Ed | 0 J 
上 = Name pplication Type = Queve = Starthme 2 FintshTime 
EINISHED application 1457619405440 0002 hduser Wordcounts SPARK defaukt Thu, 10 Mar2016 。 Thu10Mar2016 
EALED 140827GMT 140%01 GUT 
apolication 1457618405440 0001 haoser ‘WordCounts SPARK default Thu 10 Mar 2016 Thu 10 Mar 2016 
Scheduler 140546 GMT :33 GMT 


在 此 可 以 查看 WordCounts 应 用 程序 


图 11-67 在 Hadoop Web 界面 查看 WordCount 


WordCounts 这 个 应 用 程序 名 称 就 是 我 们 在 第 11.10 节 .setAppName("WordCounts") 中 设 
置 的 。 


C05 有 时 运行 时 会 产生 错误 信息 
有 时 运行 时 会 发 生 错误 信息 ， 再 运行 一 次 即 可 ， 如 图 11-68 所 示 。 
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hduser@master: ~/pythonwork/Pythonproject 
hduser@master:~$ cd ~/pythonwork/Pythonproject 
hduser@master:~/pythonwork/Pythonproject$ spark-submit --driver-memory 1024m --e 
xecutor-cores 2 --executor-memory 1624m --master yarn --deploy-mode client WordCc 
ount .py 
| 开始 运行 Runwordcount 
16/68/23 13:33:56 NARN NativeCodeLoader: Unable to load native-hadoop library fo 
r your platform... using builtin-java classes where applicable 
16/68/23 13:34:63 ERROR SparkContext: Error initializing SparkContext. 
org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.Saf 
eModeException): Cannot create directory /user/hduser/.sparkstaging/application_ 
1471936464467_6661. Name node is in safe mode. 
The reported blocks 6 needs additional 34 blocks to reach the threshold 6.9996 o 
fFf total blocks 34. 
The number of live datanodes © has reached the minimum number 6. Safe mode will 
be turned off automatically once the thresholds have been reached. 

at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkNameNodesafe 
Mode(FSNamesystem. java:1366) 

at org.apache.hadoop.hdfs.server .namenode.FSNamesystem.mkdirsInt(FSNames 
lvstem. java:4258) 


图 11-68 运行 发 生 错误 时 再 运行 一 次 


在 Spark Standalone Cluster 上 运行 
WordCount 程序 


接 下 来 要 介绍 如 何 使 用 spark-summit 在 Standalone Cluster 上 运行 WordCount Spark 程序 。 
如 果 尚 未 构建 Spark Standalone Cluster， 可 以 参考 第 8.9 节 的 内 容 构建 Spark Standalone Cluster 
运行 环境 。 


CT01 则 除 已 产生 的 目录 
我 们 后 续 还 要 继续 测试 ， 所 以 在 “终端 ”程序 中 输入 下 列 命令 : 
> -删除 已 产生 目录 
删除 HDFS 的 data/output 目录 ， 加 上 -R 会 删除 所 有 子 目 录 与 文件 。 
hadoop fs -rm -R /user/hduser/data/output 
运行 后 屏幕 显示 界面 如 图 11-69 所 示 。 


16/98/23 14:23:68 INFO fs.TrashpolicyDefault: Namenode trash configuration: Deletion interval = 6 minutes, 
IlEmptier interval = 9 minutes. 
peleted /user/hduser/data/output 


11-69 删除 已 产生 目录 


人 02 启动 Standalone Cluster 


在 “终端 ”程序 中 输入 下 列 命令 : 
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> 启动 Standalone Cluster 
/usr/local/spark/sbin/start-all.sh 


运行 后 屏幕 显示 界面 如 图 11-70 所 示 。 


duser@master: ~/pythonwork/Pythonproject 


duser@naster:~/pythonwork/Pythonproject$ /usr/local/spark/sbin/start-all.sh 
starting org.apache.spark.deploy.master.Master, logging to /usr/Llocal/spark/logs| 
spark-hduser -org.apache.spark.deploy.master .Master-1-master .out 

Hata2: starting org.apache.spark.deploy.worker .Worker, logging to /usr/local/spal 
k/logs/spark-hduser -org.apache.spark.deploy.worker .Worker-1-data2.out 

Hata3: starting org.apache.spark.deploy.worker .Worker, logging to /usr/local/spal 
k/logs/spark-hduser -org.apache.spark.deploy.worker .Worker-1-data3.0ut 

Hatal: starting org.apache.spark.deploy.worker .Worker, logging to /usr/local/spal 
k/logs/spark-hduser -org.apache. spark.deploy.worker .Worker-1-datal.out 


图 11-70 ”启动 Standalone Cluster 


人 3 在 Spark Standalone Cluster 上 运行 WordCount 程序 
在 “终端 ”程序 中 输入 下 列 命令 ,就 可 以 在 Spark Standalone Cluster 运 行 WordCount 程序 : 


> 切换 至 WordCount 项 目 目录 
cd ~/pythonwork/PythonProject/ 


> 在 Spark Standalone Cluster 上 运行 WordCount 程序 


spark-submit --master spark://master:7077 --deploy-mode client --executor-memory 
500M --deploy-mode client --total-executor-cores 2 WordCount.py 


运行 后 屏幕 显示 界面 如 图 11-71 所 示 。 


/Pythonp 


hduser@master:~$ cd -~/pythonwork/PythonProject/ 
hduser@master:~/pythonwork/Pythonproject$ spark-submit --master spark://master:7677 
--deploy-mode client --executor-memory 566M --total-executor-cores 2 wordcount.py 
开始 运行 Runwordcount 

/30 22:26:64 WARN NativeCodeLoader: Unable to load native-hadoop library for yo| 


-java classes where applicable 
文字 鞭 针 共 259 项 数据 


目前 是 Spark Standalone Cluster 模 
开始 保存 到 文本 文件 . . . 


hduser@master:~/pythonwork/Pythonproject$ [| 


图 11-71 运行 WordCount 程序 


spark-submit 命令 的 详细 说 明 如 表 11-9 所 示 。 
表 11-9 命令 说 明 


说 明 
spo submit 全 人 


—master spark://master:7077 在 Spark Standalone Cluster 运行 
—deploy-mode client 部 署 模式 为 client 
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( 续 表 ) 


3 说 阴 
设置 diver 各 序 使 用 500MB 的 内 存 
设 加 运行 的 CPU 数 


要 运行 的 python 各 


JI04 查看 程序 运行 后 的 输出 目录 


在 “终端 ”程序 中 输入 下 列 命令 : 


> 查看 产生 在 HDFS data/output 目录 中 的 输出 文件 
hadoop fs -ls /user/hduser/data/output 


运行 后 屏幕 显示 界面 如 图 11-72 所 示 。 


hduser@master: ~/pythonwork/Pythonproject 


hduser@master:~/pythonwork/Pythonproject$ hadoop fs -ls /user/hduser/data/output 
Found 3 itens 


-rw-r--r-- 3 hduser supergroup 8 2616-68-23 14:24 /user/hduser/data/output/_SUCCESS 
-rw-r--r-- 3 hduser supergroup 2352 2916-68-23 14:24 /user/hduser/data/output/part-00000 
-rw-r--r-- 3 hduser supergroup 2144 2616-68-23 14:24 /user/hduser/data/output/part-00001 


hduser@master:-/pythonwork/Pythonproject$ 目 


图 11-72 查看 产生 在 HDFS data/output 目录 中 的 输出 文件 


DY05 Spark Standalone Web UI 界面 


运行 后 ， 我 们 可 以 在 Spark Standalone Web UI 界面 查看 程序 的 运行 记录 与 状态 ， 在 浏览 
器 输入 下 列 网 址 : 


> 查看 Spark Standalone Web UI 界面 
http://master:8080/ 


运行 后 屏幕 显示 界面 如 图 11-73 所 示 。 我 们 可 以 看 到 启动 后 共有 3 个 Worker 以 及 已 运行 
完毕 的 程序 WordCounts。 
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Spark Master aspar 


Spaik: 1s0 Spark Master at spark://master:7077 


URL: spark/master7077 

REST URL: spark//master:6066 (chsster mocbl 
Alive Workers: 3 

Cores in use: 3 Total, 0 Used 

Memory in use: 1536.0 MB Total, 0.0 B Used 


Applications: 0 Running, 1 Completed 已 运行 完毕 的 程序 WordCounts 
Dnvers: 0 Hunning, 0 Compleleg 
Status: ALIVE 


Workers 

Workerld Address 
worker-20160310221849.192.168.60.102-60443 192.168.60.102:60443 
worker-20160310221849.192 168 60 103-60966 192 .168.60 103:60966 
worker-20160310221850-192.168 .60.101-43721 


192.168.60.101:43721 
Running Applications 


Application ID Name ores Memory per Node 

Completed Applications 

Application ID Cores Memory per Node 
app-20160310222608-0000 


图 11-73 查看 Spark Standalone Web UI 界面 
706 圳 除 已 产生 的 目录 
我 们 后 续 还 要 继续 测试 ， 所 以 在 “终端 ”程序 中 输入 下 列 命令 : 
> 删除 输出 目录 


删除 HDFS 的 data/output 目录 ， 加 上 -R 会 删除 所 有 子 目 录 与 文件 。 


hadoop fs -rm -R /user/hduser/data/output 


运行 后 屏幕 显示 界面 如 图 11-74 所 示 。 


hduser@master: ~/pythonwork/Pythonproject 


Ihduser@master 


/pythonwork/Pythonproject$ hadoop fs -rm -R /user/hduser/data/output 


16/68/23 14:23:68 INFO fs.TrashPoLtcyDefautt: Namenode trash configuration: Deletion interval = 6 minutes, 
Emptier interval = 9 minutes. 


Deleted /user/hduser/data/output 


图 11-74 删除 输出 目录 


| 在 eclipse 外 部 工具 运行 Python Spark 程序 


在 之 前 的 章节 中 , 我 们 介绍 可 以 在 “终端 ”程序 中 使 用 spark-submit 运行 Python Spark 程 
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序 ， 并 且 可 以 运行 在 local、Hadoop YARN 与 Spark Standalone 模式 。 可 是 如 果 每 次 运行 都 要 
在 “终端 ”程序 中 运行 ， 较 不 方便 。 

在 eclipse 我 们 可 以 使 用 外 部 工具 以 spark-submit 来 运行 Python Spark 程序 , 并 且 也 可 以 
运行 在 local、Hadoop YARN 与 Spark Standalone 模式 。 这 种 方式 提高 了 eclipse 开发 Python 
Spark 的 效率 ， 只 需要 在 编辑 界面 修改 好 程序 、 运 行 外 部 工具 即 可 。 修 改 与 运行 都 在 同一 个 界 
面 。 


人 IDi 外 部 工具 的 设置 
可 以 使 用 下 列 两 种 方式 〈 见 图 11-75)， 进 入 外 部 工具 的 设置 : 


> 菜单 : Run 一 External Tools 一 External Tools Configurations... 


或 
> 单 测 世 了 J 图 标 一 External Tools Configurations. 


2 回回 和 忆 将 ”OQO 
Bpackage Explorer 3 、 eB% ”= oO Bword |」 3. 选择 External Tools 


sy RunAs 
国 thonPi t a 
eS L Configurations 
FT 
quiet logs( sc ) 
1. 单 击 要 运行 的 程序 Print(" 开 六 雍 驳 文 共 文 大 …) 
textFile = sc.textFile( "data/READM. 


图 11-75 选择 设置 外 部 工具 命令 
人 02 新 建 外 部 工具 的 设置 ( 见 图 11-76) 


External Tools Configurations 


2. 单 击 “ 新 建 ” 图 标 


Configure launch settings from this dialog: 


-Press the'New button to create a configuration of the selected type. 


-Press the ‘Duplicate’ button to copy the selected configuration. 
娄 Ant Build 入 Ee 
葬 ApluseB 


? Program 


XW -Press the ‘Delete’ button to remove the selected configuration. 
妾 -Press the 'Filter’ button to configure filtering optio 
-Edit or view an existing configuration by selecting it. 1. 单 击 Program 


Configure launch perspective settings from the ‘Perspectives' preference page. 


图 11-76 新 建 项 目 
F103 设置 外 部 工具 
经 过 上 一 步骤 新 建 外 部 工具 的 设置 ， 新 建 了 一 个 New_configuration， 然 后 设置 外 部 工具 
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参数 ， 如 图 11-77 所 示 。 


1. 单 击 New_configuration 


sparksvbmit | 


2. 输入 外 部 工具 名 称 
回 | 同 Main AS Refresh 蕊 Buildj 丽 Environmentj 口 common| 
一 | 3. 外 部 工具 的 完整 路 径 
| Lustocayspark/bin/spark-submit 


Browse Workspace... | | Browse File System... 
Norking Directon 
S{workspace loc}/${project name) 


Browse Workspace... | | Browse File System... Variables... 


娄 Ant Build 
@ APl Use Repor 


Variables... 


4. 外 部 工具 运行 的 目录 


| [driver-memory 29 -master locall4] S{resource_name} S{string promp!) 


5. 外 部 工具 运行 时 的 参数 i 


| Note: Enclose an argument containing spaces using double-quotes ("). 


Filter matched 4 of 4items 2 - Apply Revert 
6. 运行 外 部 工具 
@ Close 


图 11-77 设置 外 部 工具 参数 
以 上 设置 说 明 如 表 11-10 所 示 。 
表 11-10 ”外 部 工具 参数 设置 说 阴 


设置 值 与 说 阴 
spark-submit 
oe 外 部 工具 的 名 称 ， 会 显示 在 运行 外 部 工具 的 菜单 上 
/usr/local/spark/bin/spark-submit 
location 


外 部 工具 的 路 径 ， 在 本 范例 是 spark-submit 程序 的 完整 路 径 

$fworkspace locWSf{fproject_ name} 

设置 外 部 工具 运行 的 目录 

。 $fworkspace loc} 代表 eclipse 的 工作 目录 ， 在 本 范例 中 是 /homey/ 
hduser/pythonwork 

。$ {project_name} 代表 项 目 名 称 ， 在 本 范例 中 是 PythonProject 

合 起 来 后 /home/hduser/pythonwork/PythonProject 就 是 工作 目录 


Working Directory 


~-driver-memory 2g --master local[ 4] $ {resource name} ${string_ prompt} 
运行 外 部 工具 的 参数 ， 其 中 : 
。S${resource_ name} 是 当前 选中 的 文件 ， 也 就 是 WordCount.py 
。S$f{string_prompt} 是 程序 运行 时 输入 的 参数 


Arguments 
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人 4 spark-submit 设置 环境 变量 


因为 后 续 我 们 的 范例 程序 会 使 用 到 一 些 Python 链接 库 ， 例 如 numpy、pandas 等 ， 所 以 必 
须 添加 设置 环境 变量 PYSPARK_PYTHON 。 在 这 里 我 们 一 样 使 用 字符 串 替代 变量 ( 见 图 
11-78)， 简 化 设置 过 程 。 


External Tools Configurations 


ji 太美 日 搜 " 


Dr Cd 


Create, manage, and run configuratlons © 
Runa program / 1. 单 击 Environment [a 
Name: [spark-submit 


业 Ant Build Environment variables to set: 
@ AplUse Report Variable Value 
v @ Program 一 
Q sparksubmit Select... 
Edit 
Remove 
nent to na 
R at me nvironm 
Filter matched 4 of 4items Apply Revert 
@ Close Run 


11-78 ”spark-submit 设置 环境 变量 
I05 新 建 PYSPARK_PYTHON 环境 变量 ( 见 图 11-79 ) 


New Environment Variable 


PYSPARK_PYTHON | 
SfPYSPARK_PYTHON]| | 


Name: 


Value: 


2. Value 设置 为 ${PYSPARK_PYTHON} 
3. 单 击 OK 按钮 


图 11-79 新 建 PYSPARK_PYTHON 环境 变量 


人 06 运行 外 部 工具 ( 见 图 11-80 ) 
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Runa program 


Create, manage, and run configuratlons © 
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@ 


上 上 日 加 > | Name: |spark-submit 
[ 看 Main[ Refresh [BB Build[ 思 Environment、 固 Common] ] 
od | | Environment variables to set: 
国 APlUseReport | | Variable Value New... 
中 Edit. 
二 - Remove 
1. 完成 后 就 可 以 看 到 
PYSPARK PYTHON 环境 变量 
图 Append environment to native environment 
) Replace native environment with specified environment 2. 单 击 
T 
Filter matched 4 of 4 items 


11-80 


运行 外 部 工具 


DT07 不 要 输入 参数 ， 直 接 单 击 OK 按钮 


i Apply 


3. 单 击 Run 按 


钮 运行 外 部 工具 


因为 之 前 在 步骤 3 中 设置 外 部 工具 时 ，Arguments 已 设置 为 ${string_prompt}， 所 以 运行 


后 系统 会 要 求 输入 程序 运 


输入 参数 ， 直 接 单 击 OK 按钮 ， 如 图 11-81 所 示 。 


| Pleaseinputavalue 


L 


] 


图 11-81 不 输入 参数 


外 部 工具 运行 的 结果 ( 见 图 11-82 ) 


加 Problems | 外 Tasks| 日 consoleg | 
[<terminated> spark-submit [Program] /usr/loca/spark/bin/spar 
开始 执行 RunWordCount 

16/03/10 23:50:51 WARN NativeCodeLoader: Unabld 


master=local[ 记 
过 


文字 统计 共 260 项 数据 
开始 保存 到 文本 文件 


图 11-82 外 部 工具 运行 的 结果 


行 时 的 参数 。 由 于 WordCount.py 不 需要 输入 参数 ,因此 在 这 里 不 要 


不 要 输入 参数 ， 直 接 


单 击 OK 按钮 
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人 9 查看 输出 的 data/output 目录 


当 运 行 完 WordCount 之 后 ， 就 会 在 data/output 目录 中 产生 输出 文件 ， 但 是 在 eclipse 中 
还 看 不 到 内 容 。 我 们 可 以 在 Package Explorer 中 先 单 击 data 目录 ， 然 后 按 F5 键 更 新 目录 中 
的 内 容 ， 随 后 就 可 以 看 到 产生 的 目录 。 展 开 output 目录 之 后 会 看 到 输出 的 文件 。 

如 果 输 出 的 文件 很 大 ，saveAsTextFile 命令 会 自动 分 为 多 个 文件 。 本 范例 就 会 产生 3 个 文 
件 : SUCCESS 代表 输出 成 功 ，part-00000 与 part-00001 两 个 数据 文件 ， 如 图 11-83 所 示 。 


Pythonproject/WordCount.py - Scala IDE 


1. 单 击 PythonProject 目录 ,然后 按 FS 
键 来 更 新 目录 中 的 内 容 


但 PyDev Package Explorer x 、 


” 储 PythonProject 


国 _SUCCESS 
国 part00000 
出 part-00001 


4. 输出 文件 _SUCCESS、part- 00000、 
part-00001 


11-83 ”查看 输出 的 data/output 目录 
人 IO 查看 输出 文件 part-00000 


可 以 用 鼠标 双击 part-00000 来 打开 文件 ， 如 图 11-84 所 示 。 


"Bh Pythonproject 
ve data 


IR,, 2. 打开 后 part-00000 
v Boutput ii 
Recss 的 文件 内 容 


了 TD5TE5557 
国 README.md 
* 回 Wordcountpy 


(uenvironment', 1) 


1. 用 鼠标 双击 part-00000 来 打开 这 个 文件 


图 11-84 查看 输出 文件 part-00000 
1 再 次 运行 外 部 工具 


之 前 已 经 设置 完成 外 部 工具 ， 再 次 运行 外 部 工具 的 方式 如 图 11-85 所 示 。 
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ythonproject/WordCount.py - Scala IDE 


pS 岛 书 攻 三 中 国人 GQ me- 0 -|%| 


Tp 
日 Recommendm 


入 PackageExplore 器 °° 0 BWwordcount% 


RunAs 
站 ea 
多 = . 单 rk-submit 
» gs Pythonproject 区 二 SparkContexttconf= rm 3. 单 击 spark-sub 


priht( “master="+sc.master 
SefLoggerl(sc) 


11-85 ”再 次 运行 外 部 工具 


在 eclipse 运行 spark-submit YARN-clien 


我 们 也 可 以 设置 外 部 工具 运行 在 YARN-client 模式 。 


人 ET) 设置 外 部 工具 ( 见 图 11-86 ) 


jpythonproject/wordcount.py - Scala IDE 


mv ] 宇 丰 同 四 中 与 寿 v*Dv， < 2. 单 击 这 个 图 标 


1spark-submit 
PyDev Package Explorer 3  O Bwprdcount% 


print( 元 过 当 疗 Runy 
Sc=CreateSparkCor 


RunAs 


Y 踪 PythonProject 
vdata [i 
> textFle = sc.textFile(Path+ a 


3. 选择 External Tools 
Configurations 


hc Alcmadal 


图 11-86 设置 外 部 工具 
02 复制 外 部 工具 


我 们 可 以 复制 之 前 已 经 设置 完成 的 spark-submit 外 部 工具 ， 如 图 11-87 所 示 。 
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External Tools C 


figurations 


Create, manage, and run configuratlons 


Runa program spark-submit 
号 XR 日 和 划 ~ Name: spark-submit 
回合 Mainihs Refresh BBuild| 志 Emironment| Common 
吕 AntBuild mE 
全 AplUse Repoy /usrhocalspark/bin/spark-submit 
Browse Workspace...| Browse File System...| | Variables... 
Working Directory: 
S{workspace_loc}/$lproject_name} 
Browse Workspace... | Browse File System... | Variables... 


Arguments: 
Fdriver-memory 2g -master local[4] ${resource_name} 


Varlables... 
Note: Enclose an argument containing spaces using double-quotes ("). 


Filter matched 4 of 4 items 2. 选择 Duplicate pply Revert 


close 


® 


11-87 复制 


人 3 spark-submit YARN-client 设置 外 部 工具 ( 见 图 11-88 ) 


guration 


Create, manage, and run configuratlons 


Runa program 


上 了 半日 加 ” Namellspark-submityarnctient 
Eype fiter text 国 | 回 Mam Rerresh DDBuild| 志 Environment| 加 common] 


[a 
1. 输入 外 部 工具 名 称 


表 Ank Build Location: -一 
@ APlUse Report [/usr/locaVspark/bin/spark-submit 
es Browse Workspace.. | Browse FileSystem.-| Variables.. 
Q spark-submit 


Qh spark-submityamclient | Working Directory: 
[Stworkspace_loc}/${project_name} 


Browse Workspace... 


(Browse FileSystem.. |_ Variables.._ 


-dl -memory 1024m -executor-cores 2 -executor-memory 19-master yari 
deploy-mode client ${resource_name} S{string_prompt} 
Variables.. 
Note: Enclose an argument containing spaces using double-quotes ("). 
= 二 ======= 一 | 
Apply Revert 


Filter matched Sof Sitems 


® 


图 11-88 设置 外 部 工具 参数 


复制 后 ，location 与 Working Directory 完全 相同 ， 不 需要 修改 ， 只 需要 修改 name 与 
Arguments 即 可 。 
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> name 

外 部 工具 的 名 称 会 显示 在 运行 外 部 工具 的 菜单 上 。 
spark-submit yam-client 

> Arguments 


外 部 工具 运行 时 的 参数 : 


--driver-memory 1024m --executor-cores 2 --executor-memory lg --master yarn 
--deploy-mode client $ {resource name} ${string prompt} 


其 中 , ${resource_name} 就 是 当前 选中 的 文件 , 也 就 是 WordCount.py, 加 入 $f{string_prompt} 
会 出 现 对 话 框 ， 让 用 户 输入 运行 参数 。 


人 4 spark-submit YARN-client 设置 环境 变量 ( 见 图 11-89 ) 


Create, manage, and run configuratlons 
Runa program 


?大 日 总， Name [spark-submit yarn-client a 
i rs rr 


二 Ank Bulld Environment variables to set: 
国 AplUseReport Variable Value 
vProgram PYSPARK_PYTHON SIPYSPARK_PYTHON} 。 pe 
QW sparksubmit 2. 单 击 New 按钮 
Qh sparksubmit (1) 


11-89 设置 环境 变量 


人 5 新 建 HADOOP_CONF_DIR 环境 变量 


因为 在 Hadoop YARN 运行 , 所 以 必须 新 建 并 设置 环境 变量 HADOOP_CONF_DIR, 如 图 
11-90 所 示 。 


New Environment Variable 


HADOOP_CONF_DIR 


Name: 


Value: 


2. Value 设置 为 ${ HADOOP_CONF_DIR } 
3. 单 击 OK 按钮 


图 11-90 新 建 HADOOP_CONF_DIR 


运行 外 部 工具 ( 见 图 11-91 ) 
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Create, manage, and run configurations © 
Runa program [a 
[i Name: |spark-submit yarn-client 

加 | [四 Main[S Refresh fy Build [本 Evironment 、 Common] 


娄 Ant Build | Environment variables to set: 


APl Use Report Variable Value New. | 


v @ Program sp 
全 sparksubmic PYSPARK_PYINON SYSPARNZPT INONY lect... 
GW spark-submit (1) Edit... 

Remove 


1. 完成 后 就 可 以 看 到 


HADOOP_CONF_DIR 环境 变量 
图 Append environment to native environment je 
Replace native environment with specified environment 2 击 Apply 按钮 
本 i Appb Revert 2 
Filter matched 5 of 5 items sz 和 单 击 Run 按钮 


@ Close 


图 11-91 运行 外 部 工具 
DI07 不 要 输入 参数 ， 直 接 单 击 OK 按钮 


运行 后 系统 会 要 求 输入 程序 运行 时 的 参数 。 由 于 WordCount.py 不 需要 输入 参数 ， 因此 在 
这 里 不 要 输入 参数 ， 直 接 单 击 OK 按钮 ， 如 图 11-92 所 示 。 


Please input a value 


不 要 输入 参数 ， 直 接 
ee i | Wotet 


图 11-92 直接 单 击 OK 按钮 
在 后 续 章节 中 ， 有 些 程序 运行 时 是 需要 输入 参数 的 。 


人 8 spark-submit YARN-client 外 部 工具 运行 的 结果 ( 见 图 11-93 ) 


开始 执行 RunWordCount 


16/03/11 00:14:44 WARN NativeCodeLoader: Unable to load nd 
~ yarn-client 模式 


文本 文件 共 95 行 
文字 统计 共 260 项 数据 
开始 保存 到 文本 文件 


图 11-93 ”查看 外 部 工具 运行 的 结果 
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人 09 再 次 运行 外 部 工具 
之 前 已 经 设置 完成 外 部 工具 ， 要 再 次 运行 外 部 工具 的 方式 如 图 11-94 所 示 。 


多 PythonProjed p 一 External Tools Configurations.. 3. 单 击 spark-submit 
Organize Favorites... 


yarn-client 


要 运行 的 程序 


图 11-94 再 次 运行 外 部 工具 
0 运行 外 部 工具 的 结果 ( 见 图 11-95 ) 


“Search 是 Console 2 


<terminated> spark-submit yarn-client [Progral 
开始 运行 RunWordCount 

16/08/23 14:40:56 WARN NativeCodeLoader Unabla 
16/08/23 14:40:59 WARN Client: Nelther spark.yarn 
master=yam 

开始 读 取 文本 文件 .… 

文本 文件 共 95 行 

文字 统计 共 260 项 数据 

开始 保存 到 文本 文件 .… 


图 11-95 再 次 运行 外 部 工具 的 结果 


在 eclipse 运行 spark-submit Standalone 


我 们 也 可 以 设置 外 部 工具 运行 在 spark-submit Standalone 模式 。 
人 Io1 设置 外 部 工具 ( 见 图 11-96 ) 


'ythonProject/WordCount.py - Scala IDE 
CE A 


并 PackageExplore 器 ”D BWwordcount 3 BRecommend™r 


二 2. 单 击 这 个 运行 


jbedsion 图 标 


2spark-submit FE= 


1sperk-submit yerrrclient 


* CS Pythonproject 


Sei Dee) 
print( "78 ER 3. 选择 External Tools 


Configurations 


图 11-96 选择 设置 外 部 工具 菜单 
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CT02 复制 外 部 工具 ( 见 图 11-97) 


External Tools Configurations 


Create, manage, and run conflgurations 


Runa program 


Mame: |spark-submit yarn-client 


自 Main、 字 Refresh| BD Build| 夯 Environmentj 口 Common 


类 Ant Build Location: 
国 APlUse Report /usr/local/spark/bin/spark-submit 
Wr Browse Workspace... |BrowseFile System...| | Variables... 


人 spark-submit 


(% spark-submit yarn-client 


Working Directory: 
Iorkspace_loc}/${project_name} 


Browse Workspace... | Browse File System... /| Variables... 


driver-memory 1024m -executor-cores 2 ~executor-memory 1g9—master yarn— 
deploy-mode client Sfresource_namej S${string_prompt} 


Variables... 


Not®: Enclose an argument containing spaces using double-quotes ("). 


Filter matched 5 of Sitems 2. 选择 Duplicate Apply Revert 


@ Close Rn 
11-97 复制 外 部 工具 


人 3 spark-submit Standalone 设置 外 部 工具 ( 见 图 11-98) 


复制 后 ，location 与 Working Directory 完全 相同 ， 不 需要 修改 ， 只 需 修 改 Name 与 
Arguments 即 可 。 


> Name 
外 部 工具 的 名 称 会 显示 在 运行 外 部 工具 的 菜单 上 。 
spark-submit Standalone 
> Arguments 
外 部 工具 运行 时 的 参数 : 


--master spark://master:7077 --deploy-mode client --executor-memory 500M --total- 
executor-cores 2 ${resource name} ${string prompt} 


其 中 ，$ {resource_name} 就 是 当前 选中 的 文件 ， 也 就 是 WordCount.py。 
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Create, manal 
Runa program 


[4 


娄 Ant Build 
图 AplUseReport 
v @ Program 
spark-submit 
@ spark-submit yarnclient 
QW spark-submit yarn-clent (1) 


Filter matched 6of Gitems 


@ 


人 04 确认 环境 变量 


drun conflguratlons © 


百 wain ~ Refresh| B Build 三 Envronment 中 Common| 


2. 外 部 工具 运行 


1. 输入 外 部 工具 名 称 


Locatiorr 
/usrflocal/spark/bin/spark-submit 
Browse workspace -| |Browse File System -| | _ Variables... 
Working Directory: 
Stworkspace lod/stproject_name] 
Browse Workspace...| |Browse File System -| | Variables... 
Arguments: 
master spar mater 7o77 deploy mode Tent execuor memory som 


kotalexecutorcores2 Stresource_name} $| 


ing_prompt} 


Note: Enclose anargument containing spaces usinf doublequotes ("). 


Apply Revert 


Close 


11-98 ”设置 外 部 工具 参数 


复制 后 ， 环 境 设置 也 是 相同 的 ， 如 图 11-99 所 示 。 


Vanables- 


Create, manage, and run conflguratlons 


Runa program 


2. 已 设置 的 环境 变量 | 


| 图 Append environment Lo native ervironment 


( Replace native environment with specified environment 


Filter matched 60f 6 ltems | 


@ 


Apply Revert 


Close 


图 11-99 确认 环境 变量 


F705 不 要 输入 参数 ， 直 接 单 击 OK 按钮 


运行 后 系统 会 要 求 输入 程序 运行 时 的 参数 。 由 于 WordCount.py 
这 里 不 要 输入 参数 ， 直 接 单 击 OK 按钮 ， 如 图 11-100 所 示 。 


| 3 同和 茵 日 搜 " | Name: |spark-submit standalone 让 单 击 Environment 
[ 国画 Wain| 字 TT | 吾 Common] 
PP | Environment variables to set: 
他 APlUse Report ‘Narable New... 
"prooam |® HApoop coNF DIR SIHADOOP_CONF_DIR} we 
Qcparkcubmit |® evspanx_pvrhon SlpYSpARK_PYTHON} . 
@ spark-submit yarn-client | Edit. 
Gh spark-submit yarn-client (1) 


3. 单 击 Run 按钮 


不 需要 输入 参数 ,因此 在 
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Please input a value 


I ] 


不 要 输入 参数 ,直接 
Fr 时 = 一 | 单 击 OK 按钮 


图 11-100 直接 单 击 OK 按钮 


人 6 spark-submit spark standalone 运行 的 结果 


在 eclipse 使 用 外 部 工具 执行 spark-submit spark standalone 的 结果 ， 如 图 11-101 所 示 。 


<terminated> spark-submit Standalone [Program] /usr/local 
开始 执行 RunWordCount 
16/03/11 00:43:22 WARN NativeCodeLoader: Un 


master=sparw //master:7077 
件 


文本 文件 共 95 行 
文字 统计 共 260 项 数据 
开始 保存 到 文本 文件 . 


运行 模式 是 spark://master:7077 


图 11-101 运行 结果 
人 7 再 次 运行 外 部 工具 
如 果 要 再 次 运行 ， 按 照 图 11-102 所 示 的 步骤 操作 即 可 。 


ythonproject/WordCount.py - Scala IDE 
= 下 全 
ls package Explore 到 


2spar Pa 


BunAas ,| | 3. 单 击 spark-submit 


Extemal Tools Configurations... 


Organize Favorites.. Standalone 
了 


* 多 PythonProject SF = SparkContext(conf = 


Hrint("master="+sc.maste 


图 11-102 再 次 运行 


本 章 我 们 介绍 了 如 何 使 用 eclipse 集成 开发 环境 (IDE) 来 开发 Python Spark 应 用 程序 。 
接 下 来 我 们 将 介绍 Spark MLlib 机 器 学 习 链接 库 。 
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推荐 引擎 是 最 常见 的 机 器 学 习 应 用 。 我 们 可 以 在 各 大 购物 
网 站 上 看 见 这 方面 的 应 用 。 

Spark MLlib 支持 ALS (Alternating Least Squares) 推荐 
算法 ,是 机 器 学 习 的 协同 过 滤 推 荐 算法 。 机 器 学 习 的 协同 过 滤 
算法 通过 观察 所 有 用 户 给 产品 的 评价 来 推断 每 个 用 户 的 
喜好 ， 并 向 用 户 推荐 适合 的 多 个 产品 ， 也 可 以 把 某 一 个 产品 推 
荐 给 多 个 用 户 。 
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类 本 推荐 算法 介绍 


常见 推荐 算法 如 表 12-1 所 示 。 
表 12-1 常见 推荐 算法 


算法 说 明 

基于 关系 型 规则 的 推 | @ 消费 者 买 产品 A， 那 么 他 有 多 大 机 会 购买 产品 B 
着 (Association Rule) | @ 购物 车 分 析 《〈 啤 酒 和 尿布 ) 

基于 内 容 的 推荐 | @ 分 析 网 页 内 容 自 动 分 类 ， 再 将 用 户 自动 分 类 
(Content-based ) @ 将 新 进 已 分 类 的 网 页 推荐 给 对 该 群 感 兴趣 的 用 户 


人 口 统计 式 的 推荐 | @ 将 用 户 以 个 人 属性 〈 性 别 、 年 龄 、 教 育 背景 、 居 住地 、 语 言 ) 作为 分 类 的 指标 
(Demographic) @ 以 此 类 作为 推荐 的 基础 


协同 过 滤 式 的 推荐 | @ 通过 观察 所 有 用 户 对 产品 的 评分 来 推断 用 户 的 喜好 
《Collaborative Filtering》 | @ 找 出 对 产品 评分 相近 的 其 他 用 户 ， 他 们 喜欢 的 产品 当前 用 户 多 半 也 会 喜欢 


本 章 主要 介绍 协同 过 滤 式 的 推荐 ， 优 缺点 如 表 12-2 所 示 。 
表 12-2 协同 过 滤 式 推荐 的 优 缺点 


。 可 以 达到 个 性 化 推荐 。 冷 启动 问题 (Cold-start) : 如 果 没 有 历史 数据 就 没 办 法 分 析 


。 不 需要 内 容 分 析 。 新 用 户 问 题 : 新 用 户 没有 评分 ， 就 不 知道 他 的 喜好 
。 可 以 发 现 用 户 新 的 兴趣 点 
。 自动 化 程度 高 


具体 实现 上 多 半 是 使 用 混合 式 方法 。 结合 上 述 方法 可 以 达到 互补 效果 , 进而 提供 给 用 户 更 
好 的 个 性 化 推荐 体验 。 


12.2 “推荐 引擎 ”大 数据 分 析 使 用 场景 


假设 有 一 个 MoviesOnLine 的 在 线 电 影 网 站 ， 会 员 可 以 付费 在 线 观赏 电影 。 公 司 希望 能 运 
用 大 数据 分 析 推 荐 引擎 增加 会 员 观 看 影片 的 次 数 ， 以 增加 营 收 , 因此 找 来 了 大 数据 分 析 师 并 组 
成 了 一 个 团队 负责 “电影 推荐 引擎 ”大 数据 项 目 )。 

> 找 出 问题 

“ 问 对 问题 ”是 解决 问题 的 第 一 步 。 大 数据 分 析 师 与 公司 人 员 讨 论 后 发 现 , 现 有 公司 的 推 
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荐 系统 是 人 口 统 计 式 的 推荐 (Demographic) ， 必 须 具 有 个 人 属性 数据 。 基 于 隐私 权 的 原因 ， 
越 来 越 难 搜集 到 正确 的 个 人 属性 数据 , 而 且 相同 属性 的 用 户 未 必 会 有 相同 的 喜好 , 无 法 做 到 个 
性 化 的 推荐 。 


> ”设计 解决 方案 模型 

大 数据 分 析 师 与 公司 人 员 讨 论 后 ， 决 定 将 推荐 引擎 加 入 协同 过 滤 式 的 推荐 〈Collaborative 
Filtering) 。 这 种 方法 是 通过 观察 所 有 会 员 给 影片 的 评分 来 推断 每 个 会 员 的 喜好 ， 并 向 会 员 推 
荐 适合 的 影片 。 也 就 是 说 ， 和 你 观看 影片 喜好 相近 的 用 户 ， 他 喜欢 的 电影 你 多 半 也 会 喜欢 。 通 
过 这 种 方式 ， 可 以 达到 个 性 化 的 推荐 效果 。 

> ”搜集 数据 

协同 过 滤 式 的 推荐 (Collaborative Filtering) 最 大 的 缺点 是 冷 启动 问题 (Cold-start) ， 如 
果 没 有 历史 数据 就 没 办 法 分 析 推荐 。 网 站 已 经 运营 了 一 段 时 间 , 累积 了 很 多 会 员 电 影评 分 的 数 
据 和 观看 记录 ， 所 以 可 以 使 用 这 些 数 据 构 建 协同 过 滤 式 的 推荐 引擎 。 

> ”创建 模型 

大 数据 分 析 师 决定 使 用 Spark MLlib 的 ALS (Alternating Least Squares) 推荐 算法 。 采 用 
这 种 方式 可 以 解决 稀 足 矩 阵 (Sparse Matrix) 的 问题 。 即 使 是 大 量 的 用 户 与 产品 ， 也 能 够 在 合 
理 的 时 间 内 完成 运算 。 在 使 用 历史 数据 训练 后 ， 就 可 以 创建 模型 。 

> 进行 推荐 

有 了 模型 之 后 ,就 可 以 使 用 模型 进行 推荐 了 。 设计 如 下 推荐 功能 ,可 以 增加 会 员 观 看 电影 
的 次 数 : 

@ ”针对 用 户 推荐 感 兴趣 的 电影 可 以 针对 每 一 个 会 员 ， 定 期 发 送 短信 或 E-mail 或 会 

员 登 录 时 ， 推 荐 给 他 /她 可 能 会 感 兴趣 的 电影 。 
@ ”针对 电影 推荐 给 感 兴趣 的 用 户 : 当 想 要 促销 某 些 电影 时 ， 可 以 找 出 可 能 会 对 这 些 电 
影 感 兴趣 的 会 员 ， 并 且 发 送 短信 或 E-mail。 


国有 ALs 推荐 算法 的 介绍 


Spark MLlib 支持 的 ALS 推荐 算法 是 机 器 学 习 的 协同 过 滤 式 推荐 算法 。 机 器 学 习 的 协同 
过 滤 式 推荐 算法 通过 观察 所 有 用 户 给 产品 的 评分 来 推断 每 个 用 户 的 喜好 , 并 向 用 户 推荐 适合 的 
产品 。 


人 SEO) 用 户 对 产品 项 目的 评分 
用 户 对 产品 项 目的 评分 有 两 种 方式 。 现 以 只 有 5 个 用 户 与 5 个 项 目 为 例 ， 说 明 如 下 : 
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> 显 式 评分 ( Explicit Rating ) 


网 站 上 的 设计 经 常会 请 用 户 对 某 个 产品 进行 评分 ， 例 如 评分 1~5 颗 星 。 可 将 其 整理 为 下 
列 矩 阵 : 


> 隐 式 评分 (Implicit rating ) 


有 时 在 网 站 的 设计 上 并 不 会 请 用 户 对 某 个 产品 进行 评分 ,但 是 会 记录 用 户 是 否 选择 了 某 个 
产品 。 如 果 选 择 了 某 个 产品 , 就 代表 用 户 可 能 对 该 产品 感 兴趣 , 但 是 我 们 不 知道 评分 为 几 颗 星 ， 
这 种 方式 称 为 隐 式 评分 (1 代表 用 户 对 该 项 产品 有 兴趣 ) 。 


ltem A ltem B ltem C ltem D ltem E 


ETE PE CE I 
El 


| | i | | 
ul | 
[| 


推荐 算法 就 是 找 出 两 个 用 户 喜 好 的 相似 性 。 
例如 ，User 1 有 兴趣 的 项 目 为 A、B、C )，User 2 有 兴趣 的 项 目 为 A、B、C、D )。Userl 
只 比 User2 少 了 一 个 喜好 项 目 D。 因 此 ， 当 推荐 算法 要 推荐 项 目 给 User 1 时 就 会 推荐 项 目 D。 


人 2 稀 政 矩阵 ( Sparse Matrix ) 的 问题 


如 图 12-1 所 示 ， 当 用 户 与 项 目 评分 越 来 越 多 时 ， 会 发 现 大 部 分 都 是 空白 的 ， 这 称 为 稀 玻 
和 矩阵 。 
用 户 与 产品 项 目 评分 成 后 上 万 时 ， 整 个 矩阵 就 会 很 大 ,而 且 很 多 都 是 空白 。 使 用 计算 机 来 
处 理 这 样 的 矩阵 很 浪费 内 存 ， 而 且 处 理 需 要 花费 很 多 时 间 。 
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Items 


Users 


图 12-1 ” 稀 朴 矩阵 示意 图 
人 3 和 矩阵 分 解 ( Matrix Factorization ) 


要 解决 稀 玻 矩阵 的 问题 ， 需 采用 矩阵 分 解 。 
如 图 12-2 所 示 ， 将 原本 矩阵 4(mXn) 分 解 成 X(mXrank) 矩阵 与 YrankXn) 和 矩阵， 而 
且 4 大 约 等 于 XXX 了 


图 12-2 ”矩阵 分 解 


12.4 如 何 搜索 数据 


MovieLens 是 一 个 推荐 系统 和 虚拟 社区 网 站 , 主要 功能 是 使 用 协同 过 滤 技 术 向 会 员 推 荐 电 
影 。GroupLens Research 实验 室 隶 属于 明尼苏达 大 学 ，MovieLens 网 站 只 是 其 中 一 个 项 目 。 在 
浏览 器 输入 下 列 网 址 进入 Movielens 网 站 : 

http://grouplens.org/datasets/movielens/ 

在 下 列 网 页 中 ( 见 图 12-3)， 可 以 看 到 不 同 大 小 的 MovieLens 数据 集 。 考 虑 到 大 部 分 读者 
是 使 用 个 人 计算 机 进行 练习 ， 所 以 在 本 书 中 采用 ml-100k 作为 范例 数据 集 。 如 果 具 有 比较 强大 
的 服务 器 ， 也 可 以 下 载 更 大 的 数据 集 来 练习 。 
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€oroupiensory moe mo 加 加 re acwenwo00 易 大 全 是 回合 


局 二 ~ Fresh 和 上 新 时 敬 MVc Basic site step -， 人 7 宇 本 后 攻 图 Google 呈正 革 天 至- 霹 汪 于 息 刘 -全 Spark 
EPSON Ewebprint -|® ap Bs” Paresh 


MovieLens 


(GroupLens Research has colected and made avaliable rating data sets from the MovieLens web site 
(nltp limowielens org). The data sets were collected over various pariods of tme, depending on the size of the 
sot using these data sets, please review their README fles for the usage Icenses and other detals 


100KB 大 小 的 数据 集 


Help our research lab: Please take a short survey about the MovieLens catasets 


MovieLens 100k 


Siable benchmark aalaset 100 000 faings yom 1009 users on 1700 moves Releesed srts98 
md 1MB 大 小 的 数据 集 
once (we: 6 Ma, chactaum) 


» Index of unzipoed fles 


MovieLens 1M 

Stable benchmark dataset. 1 mllon ratngs Irom 6000 users on 4000 moves. Released 2/2003 
ee 10MB 大 小 的 数据 集 

MovieLens 10M 


Stable benchmark dataset. 10 millon ratngs and 100,000 tag applcations appled to 10.000 movies by 72.000 us 
Released 1/2009. 


12-3 ”根据 计算 机 的 计算 能 力 选 择 数据 集 
人 ET 下 载 ml-100k 数据 
在 “终端 ”程序 中 输入 下 列 命令 ， 下 载 ml-100k 数据 。 


> ”创建 存储 下 载 数据 的 目录 
创建 默认 存储 下 载 数据 的 目录 ， 加 上 “-p” 选 项 会 创建 多 层 目录 。 


> ”切换 到 默认 存储 数据 的 目录 


> 下 载 ml-100k.zip 


运行 后 屏幕 显示 界面 如 图 12-4 所 示 。 


rsergwaster: -5 mkdtr -P ~/Pythonwork/PythonProject/data 
rnaster:-$ cd ~/pythomwork/PYthonpr oject/data 
Votoncor tyiortr oleet /ants wget http://ftles.grouplens.org/: 


ens /nl- 100k 
tp:/ /rthes.grooptens.org/datasets /ovtelens /nL-100k.; 


-org (rtles.grouplens.org)... 128.191.34.146 
(files.grouplens.0rg)1128.191.34.1461:89... 已 连接 


一 一 一 一 一 一 一 4924e2 wear Ta 
-63-88 10:41:57 【655 KB/s) - “nl-109k.ztp" saved [492482914924629] 
sergnaster:~/pythonwork/Fythonproject/data$ 四 


124 下 载 ml-look 数据 
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人 2 解压 缩 ml-100k 数据 
在 “终端 ”程序 中 输入 下 列 命令 ， 解 压缩 ml-100k.zip 文件 。 
> 解压 缩 ml-100k 
在 指令 中 加 入 “-j” 选 项 可 使 文件 解压 缩 到 当前 目录 。 


unzip -j ml-100k 


运行 后 屏幕 显示 界面 如 图 12-5 所 示 。 


hduser@master: ~/pythonwork/PythonProject/date 
hduser@master :~/pythonwork/Pythonproject/data$ unzip -j mL-19ek 
JArchive:; ml- kk .zi 

inflating: allbut.pl 

inflating: mku.sh 

inflating:; 


inflating: u. 
inflating: u. 
inflating: u. 
inflating: uttt 
inflating: u.occupation 
tnflating: uvuser 


12-5 解压 缩 ml-100k 数据 
人 3 ml-100k 文件 数据 的 说 明 
可 以 在 “终端 ”程序 中 使 用 11 命令 查看 有 哪些 文件 ， 本 章 主要 会 使 用 到 表 12-3 所 示 的 两 
个 数据 文件 。 
表 12-3 ”数据 文件 
数据 文件 名 称 ”说 明 


udat 包含 4 个 字段 : userid (用 户 id) 、item id (项 目 id) 、rating (评分 ) 、timestamp (日 
用 户 评分 数据 | 期 时 间 ) 


具有 很 多 个 字段 ， 本 书 主要 使 用 前 两 个 字段 : movie id 〈 电 影 id) 、movie title( 电 影片 
名 ) 


人 ER4 启动 Hadoop Multi Node Cluster 


启动 我 们 之 前 所 创建 的 Hadoop Multi Node Cluster 中 所 有 的 虚拟 机 ， 如 图 12-6 所 示 。 


号 Orade VM VirtualBox 管理 器 - a x 
管理 (F) 控制 (M) 帮 动 (H) 
2 8 
六 这 分 -: BG) Df 
WO) WE EF BD | 

下 a EE 

Ss 

和 ne 

国 轩 

同 丰 人 小 #0 MB 

BI 所 织 和 ,大 下 , 训 委 

a 

图 12-6 启动 虚拟 机 
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人 ER5 启动 Hadoop Cluster 
在 master 服务 器 的 “终端 ”程序 中 输入 下 列 命令 


> ”启动 Hadoop 群集 Cluster 
start-all.sh 


站 
要 


J 后 屏幕 显示 界面 如 图 12-7 所 示 。 


duser@master:-$ start-all.sh 

his script ts Deprecated，Instead use start-dfs.sh and start-yarn.sh 

tarting nanenodes on [master] 

aster: starting nanenode, Logging to /usr/Locat/hadoop/Logs/hadoop-hduser-nanenode-naster.out 
: starting datanode, logging to /usr/local/hadoop/logs/hadoop-hduser-datanode-datal.out 

ataz: starttng datanode, Logging to /usr/local/hadoop/logs/hadoop-hduser-datanode-data2.out 

data3: starting datanode, logging to /usr/Local/hadoop/logs/hadoop-hduser-datanode-data3.0ut 


tarting secondary namenodes [8.6.6-6] 


tarting yarn daenons 

tarting resourcenanager, loggtng to /usr/local/hadoop/logs/yarn-hduser-resourcenanager -master.out 
starting nodemanager, logging to /usr/local/hadoop/logs/yarn-hduser-nodenanager-datal.out 

data2: Eee nodenanager, logging to /usr/local/hadoop/logs/yarn-hduser nodemanager data2.out 
starting loggi logs/yarn-hduser -nodenanager- data3.0ut 


12-7 ”启动 Hadoop Cluster 


G06 复制 ml-100k 文件 到 HDFS 中 


在 “终端 ” 程 


训 中 输入 下 列 命令 ， 复 制 ml-100k 文件 到 HDFS 中 。 


> 创建 HDFS 目录 
hadoop fs -mkdir /user/hduser/data 


> ”复制 文件 


hadoop fs -copyFromLocal -f ~/pythonwork/PythonProject/data /user/hduser/ 


> 查看 HDFS 测试 文件 
hadoop fs -ls /user/hduser/data 


运行 后 屏幕 显示 界面 如 图 12-8 所 示 。 


hduserenaster:~/pythonwork/Pythonproject/datas 
hduseremaster:-~/pythonwork/Pythonproject/datas hadoop fs -mkdir /user/hduser/data 
hduser@naster:~/pythonwork/Pythonproject/data$ hadoop fs -copyFromLocat -f -~/pythonwork/Pythonproj 
ect/data /user/hduser/ 
hduser@master:~/pythonwork/Pythonproject/data$ hadoop fs -ls /user/hduser/data 
IFound 26 items 
3 hduser supergroup 6756 2916-66-26 21:55 /user/hduser/data/READNE 
3 hduser supergroup 3359 2916-66-26 21:55 /user/hduser/data/READNE.nd 
3 hduser supergroup 716 2016-06-26 21:55 /user/hduser/data/allbut.pl 
3 hduser supergroup 543 2916-66-26 21:55 /user/hduser/data/mku. sh 
-rw-r 3 hduser supergroup 4924929 2616-66-26 21:55 /user/hduser/data/mL-169k.ztp 
~ hduser supergroup 日 2916-66-26 21:55 /user/hduser/data/output 
3 hduser supergroup 1979173 2616-66-26 21:55 /user/hduser/data/u.data 
3 hduser supergroup 262 2616-66-26 21:55 /user/hduser/data/u.genre 
3 hduser supergroup 36 2616-66-26 21:55 /user/hduser/data/u.info 
3 hduser supergroup 236344 2816-66-26 21:55 /user/hduser/data/u.item 
3 hduser supergroup 193 2816-86-26 21:55 Juser/hduser/data/u occupation 
3 hduser supergroup 22628 2916-66-26 21:55 /user/hduser/data/u.user 


图 12-8 复制 ml-look 文 件 到 HDFS 中 
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[25 启动 IPython Notebook 


为 了 让 大 家 更 容易 理解 ALS 算法 ， 我 们 使 用 IPython Notebook 来 进行 示范 (IPython 
Notebook 具有 互动 性 的 好 处 2 以 下 示范 在 Hadoop YARN-client 模式 运行 也 可 以 参考 第 9.9 
节 的 说 明 在 不 同 的 模式 运行 IPython Notebook。 


人 Flo1 启动 IPython Notebook 在 Hadoop YARN-client 模式 
在 “终端 ”程序 中 输入 下 列 命 令 : 
> 启动 Hadoop Cluster 
参考 第 8.6 节 ， 先 启动 master、datal 、data2、data3， 然 后 执行 start-all.sh。 
Start-all.sh 


> 切换 到 ipynotebook 工作 目录 
cd ~/pythonwork/ipynotebook 


> 在 Hadoop YARN-client 模式 运行 IPython Notebook 


PYSPARK_DRIVER_PYTHON=ipython PYSPARK DRIVER PYTHON _OPTS="notebook" HADOOP CONF_ 
DIR=/usr/local/hadoop/etc/hadoop pyspark --master yarn --deploy-mode client 


按 Enter 键 后 ， 就 会 启动 浏览 器 ， 显 示 IPython Notebook 的 界面 ， 如 图 12-9 所 示 。 


DRIVER_ PYTHON=tpython PYSPARK_D 


1. 输入 命令 ， 按 


usr/local/hadoop/etc/hadoop MASTER: 


Enter 键 


/py 
[I 
[I 
It:88 
[1 § € ® localhost:esd ce i 
H ea 
一 J 2. 打开 IPython Notebook 界面 


| Fies Running Clusters 


图 12-9 打开 IPython Notebook 界面 
D02 新建 一 个 IPython Notebook 
进入 IPython Notebook 界面 ， 可 以 按照 图 12-10 所 示 的 步骤 新 建 NoteBook。 
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二 vc 图 QQ 他 自 志良 三 
2 Jupyter 
1. 单 击 New 按钮 N 


2 选择 Python2 
12-10 ”新建 IPython Notebook 


FI03 已 新 建 好 的 IPython Notebook ( 见 图 12-11 ) 


> untited 


® localhost: *C 图 * QQ 人 和 白人 和 三 
> Jupyter Untded ast cnocxpomt: a tow socons ap nsares cranges) [Lad 
Bi* x mtv Hm co 导电 [cameasw 


12-11 已 新 建 好 的 IPython Notebook 


如 何 准备 数据 


接 下 来 ，ALS 训练 数据 格式 是 Rating RDD 数据 类 型 ， 如 图 12-12 所 示 。 
sc.textFile map 转换 map 转换 
u.data - rawUserData rawRatings - RatingsRDD 


12-12 使 用 sc.textFile 将 文本 文件 u.data 导入 rawUserData 
101 配置 文件 读 取 路 径 
在 IPython Notebook 输入 下 列 指令 ， 配 置 文件 读 取 路 径 ， 如 图 12-13 所 示 。 


In [1]: global Path 
if sc.master[0:5]=="local" : 
Path="file:/home/hduser/pythonwork/PythonProject/” 
else: 
Path="hdfs://master:9000/user/hduser/” 


图 12-13 配置 文件 读 取 路 径 
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以 上 程序 判断 : 


@ 如果 sc.master[0:5] 是 "local"， 代 表 当 前 在 本 地 运行 ， 读 取 本 地 文件 。 
@ ”如果 sc.master[0:5] 不 是 "local"， 就 有 可 能 是 YARN Client 或 Spark Stand Alone， 
必须 读 取 HDFS 文件 。 


人 02 导入 ml-100k 数据 


我 们 将 使 用 sc.textFile 读 取 ml-100k 数据 集 的 u.data， 并 且 查 看 数据 项 数 ， 如 图 12-14 
所 示 。 


In [2]: rawUserData = sc.textFile(Path+"data/u.data") 
rawUserData.count() 


Out[2]，166966 


12-14 导入 ml-look 数据 
从 以 上 运行 结果 看 共有 100000 项 评分 数据 。 
人 3 查看 udata 第 一 项 数据 
查看 udata 第 一 项 数据 〈 见 图 12-15) 。 


In [3]: rawUserData.first 


Out[3]: u'196\t242\t3\t881250949" 
12-15 ”查看 u.data 第 一 项 数据 


以 上 4 个 字段 分 别 是 : 用 户 id、 项 目 id、 评 价 、 日 期 时 间 。 
ER4 Import Rating 模块 


导入 Rating 模块 ， 如 图 12-16 所 示 。 


In [30]: from pyspark.mllib.recommendation Import Rating 


12-16 ”导入 Rating 模块 
D05 读 取 rawUserData 前 3 个 字段 


接 下 来 ， 我 们 要 读 取 rawUserData 前 3 个 字段 ， 按 照 用 户 、 产 品 、 用 户 对 此 产品 的 评价 
来 编写 rawRatings， 如 图 12-17 所 示 。 
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In [7]: rawRatings =rawUserData.map(lambda line: line.split("\t")[:3] ) 
rawRatings.take 5 
Out[7]: [[u'196', u'242', u'3'], 
[u'186', u'392', uy'3'], 
[u'22', u'377', u'1'], 
[u'244', uy'51', u'2'], 
[u'166', u'346', u'1']] 


图 12-17 读 取 rawUserData 前 3 个 字段 


表 12-4 各 命令 的 详细 说 明 


说 明 
使 用 map 方法 对 rawUserData 每 一 项 数据 进行 转换 ， 
并 将 结果 存 入 rawRatings 


rawRatings= 
rawUserData.map(...) 


lambda line: 


line.split("\t") 


rawRatings.take(5) 
G06 准备 ALS 训练 数据 

ALS 训练 数据 格式 是 Rating RDD 数据 类 型 ，Rating 定义 如 下 。 
Rating(user, product, rating) 


各 字段 说 明 如 表 12-5 所 示 。 


表 12-5 ”字段 说 明 


可 以 使 用 下 列 指令 编写 ratingsRDD ( 见 图 12-18) 。 


In [52]: ratingsRDD = rawRatings.map(lambda x: (x[0],x[1],x[2])) 
ratingsRDD .take(5) 


Out[52]: [(u'196', u'242', u'3') 
(u'186', u'392', u'3'), 
(uy'22', U377', u'1' 
(u'244', u'51', u'2 
(u'166', u'346', u'1')] 


图 12-18 编写 ratingsRDD 


从 以 上 运行 结果 可 以 看 到 前 5 项 数据 并且 每 一 项 含有 用 户 、 产 品 、 用 户 对 此 产品 评价 。 
上 列 命令 的 详细 说 明 如 表 12-6 所 示 。 
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表 12-6 各 命令 的 详细 说 明 
详细 说 明 


_ Be _ rawRatings 使 用 map 将 每 一 项 数据 进行 转换 ， 并 且 返 回 
ratngsRDD=rawRatings.map( Rating 格式 数据 类 型 


lambda 匿名 函数 语法 , 传 入 x 参数 : 


[asppuakea Nis 项 数据 


人 7 查看 ratingsRDD 项 数 


可 以 使 用 .count() 查询 数据 项 数 〈 见 图 12-19) 。 


In [53]: numRatings = ratingsRDD.count() 
numRatings 


Out[53]: 199669 


图 12-19 查看 ratingsRDD 项 数 
以 上 运行 结果 显示 共有 100000 项 评价 。 


08 查看 不 重复 用 户 数 


x[0] 是 用 户 字段 ， 可 以 先 使 用 .map(lambda x: x[0]) 转换 为 用 户 数据 ， 再 使 用 .distinct() 
筛选 出 不 重复 的 数据 ， 最 后 显示 numUsers， 如 图 12-20 所 示 。 


In [55]: numUsers =ratingsRDD.map(lambda x: x[0] ).distinct().count() 
numUsers 


Dut[55]: 943 


12-20 ”查看 不 重复 用 户 数 
以 上 运行 结果 显示 共有 943 个 不 重复 用 户 。 
C09 查看 不 重复 电影 数 


x[0] 是 电影 字段 ， 可 以 先 使 用 .map(lambda x: x[1] ) 转换 为 电影 数据 ， 再 使 用 .distinct() 
筛选 出 不 重复 的 数据 ， 如 图 12-21 所 示 。 


In [57]: numMovies = ratingsRDD.map(lambda x x[1]).distinct().count() 
numMovies 


Out[57]: 1682 


12-21 查看 不 重复 电影 数 
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[和 如 何 训练 模型 | 


如 图 12-22 所 示 , 我 们 将 使 用 rawUserData 数据 以 map 转换 为 rawRatings， 再 改 用 map 转 
换 为 ALS 训练 数据 格式 RDD[Rating]。 然 后 使 用 ALS.train 进行 训练 ， 训 练 完成 后 就 会 创建 推 
荐 引擎 模型 MatrixFactorizationModel。 


ALS train 
进行 训练 


- MatirixFactorization 
RatingsRDD Model 


图 12-22 ”使 用 ALS.train 进行 训练 的 示意 图 
人 To1 导入 (Import) ALS 模块 ( 见 图 12-23 ) 


In [16]: from pyspark.mllib.recommendation import ALS 


图 12-23 导入 ALS 模块 
D02 使 用 ALS.train 介绍 


我 们 将 使 用 ALS.train 命令 进行 训练 。ALS.train 可 分 为 显 式 评分 训练 与 隐 式 评分 训练 ， 参 
数 说 明 如 表 12-7 所 示 。 

> 显 式 评分 (Explicit Rating ) 训练 

ALS.train(ratings, rank, iterations=5, lambda =0.01): 

返回 MatrixFactorizationModel 
> 隐 式 评分 (Implicit Rating ) 训练 


ALS.trainImplicit (ratings, rank, iterations=5, lambda =0.01): 
返回 MatrixFactorizationModel 
两 种 评分 训练 的 作用 都 是 训练 数据 并 返回 模型 。 

表 12-7 ALS.train 命令 参数 说 明 


参数 说 明 


| ratings | 训练 的 数据 格式 是 Rating (userID, productID, rating) 的 RDD 


a rank 指 的 是 当 我 们 矩阵 分 解 Matrix Factorization 时 ， 将 原本 矩阵 A(mxn) 分 解 成 
X(mxrank) 和 矩阵 与 KWrankxm) 矩 阵 
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( 续 表 ) 
参数 说 明 
lambda 默认 值 为 0.01 
返回 数据 返回 训练 完成 的 模型 ， 数 据 类 型 是 MatrixFactorizationModel 


这 些 参数 值 的 设置 会 影响 结果 的 准确 度 以 及 训练 所 需 的 时 间 。 后 续 章 节 会 说 明 如 何 调 校 找 
出 最 佳 的 参数 组 合 。 


> ”训练 完成 后 会 产生 MatrixFactorizationModel 模型 
训练 时 会 执行 矩阵 分 解 〈Matrix Factorization )， 完 成 后 会 将 原本 矩阵 A4(mxn) 分 解 成 
Xlmxrank) 矩阵 与 Xrankxm) 窍 阵 ， 详 细 说 明 如 表 12-8 所 示 。 
表 12-8 MatrixFactorizationModel 对 象 
Member 成 员 说 明 


分 解 的 参数 


分 解 后 用 户 矩阵 Xonxrang 
分 解 后 产品 自 阵 Toankx 


03 使 用 ALS.train 命令 进行 训练 


本 范例 使 用 显 式 评分 (Explicit rating) 训练 。 我 们 可 以 使 用 ALS.train 命令 并 传 入 之 前 创 
建 的 ratingsRDD 进行 训练 ， 训 练 完成 后 返回 model， 如 图 12-24 所 示 。 


In [18]: model = ALS.train(ratingsRDD, 10, 10, 0.01) 
print model 


<pyspark .mllib .recommendation.MatrixFactorizationModel object at 9x7f8252c6d1d9> 


图 12-24 使 用 ALS.train 命令 进行 训练 


从 以 上 运行 结果 可 以 看 出 ， 训 练 完成 后 建立 的 model 是 MatrixFactorizationModel 数据 
类 型 。 


so 
贤 纪 如何 使 用 模型 进行 推荐 
在 前 面 的 章节 中 我 们 已 经 训练 完成 并 建立 模型 ， 接 下 来 将 使 用 此 模型 进行 推荐 。 
个 JIo1 针对 用 户 推荐 电影 
我 们 可 以 针对 每 一 个 会 员 定期 发 送 短信 或 E-mail, 或 在 会 员 登 录 时 向 会 员 推 荐 可 能 会 感 兴 
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趣 的 电影 。 

针对 用 户 推荐 电影 ， 我 们 可 以 使 用 model.recommendProducts 方法 来 推荐 ， 说 明 如 表 12-9 
所 示 。 

MatrixFactorizationModel.recommendProducts(user: Int, num: Int): 输入 参数 user， 针 对 此 
user 推荐 给 他 /她 有 可 能 感 兴趣 的 产品 。 


表 12-9 参数 说 明 


说 阴 
要 被 推荐 的 用 户 id 
推荐 的 项 数 


推荐 产品 ，rating 是 系统 给 的 评分 ，rating 越 高 代表 系统 越 加 优先 向 此 用 户 推荐 此 产品 ; 返回 
的 List 会 按 rating 从 大 到 小 排序 ， 也 就 是 说 第 一 项 是 系统 推荐 评分 最 高 的 产品 


参数 
返回 Rating 数据 类 型 (user: Int, product Int, rating: Double) 的 数组 ; List 中 每 一 项 都 是 系统 的 


下 面 给 出 一 个 以 上 方法 的 使 用 范例 。 例 如 ， 针 对 用 户 196 推荐 前 5 部 电影 : 
> ”针对 用 户 推荐 电影 
使 用 训练 完成 模型 进行 推荐 ， 传 入 参数 (user=100, num=5)， 如 图 12-25 所 示 。 


In [17]: model.recommendProducts(100,5) 


Out[17]: [| [Rating(user=160, product=1141, rating=6.388971693119922), 
Rating(user=1969, product=394, rating=5.919113143619917), 
Rating(user=199, product=1192, rating=5.655175967094993), 
Rating(user=199, product=723, rating=5.452607348836167), 
Rating(user=199, product=1686, rating=5.3733955267679665)] 


图 12-25 传 入 参数 


以 上 执行 结果 显示 ， 第 1 项 数据 是 系统 针对 此 用 户 首先 推荐 的 产品 。 其 意义 是 推荐 给 用 户 
ID 100， 产 品 ID 1141， 推 荐 评分 大 约 为 6.38。 推 荐 评分 越 高 ， 代 表 系 统 越 优先 推荐 此 产品 。 


人 62 查看 针对 用 户 推 荐 产品 的 评分 


我 们 可 以 查询 系统 对 用 户 推荐 产品 的 评分 。 例如 ,我 们 查询 上 一 步骤 的 第 一 项 ， 系 统 针对 
用 户 100 推荐 产品 1141 的 评分 ， 如 图 12-26 所 示 。 


In [19]: model.predict(100 1141) 
Out[19]: 6.388971693110922 


图 12-26 查看 针对 用 户 推荐 产品 的 评分 
G03 针对 电影 推荐 给 用 户 


当 我 们 想 要 促销 某 些 电影 时 , 可 以 找 出 可 能 会 对 这 些 电影 感 兴趣 的 会 员 , 并 且 发 送 短信 或 
E-mail。 针 对 电影 推荐 给 用 户 ， 我 们 可 以 使 用 model.recommendUsers 方法 推荐 : 
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MatrixFactorizationModel.recommendUsers(product: Int num: Int): 输入 参数 product， 针 对 
此 product 推荐 给 可 能 有 兴趣 的 用 户 。 
参数 说 明 如 表 12-10 所 示 。 
表 12-10 参数 说 明 
说 阴 
product 要 被 推荐 的 产品 id 


推荐 的 项 数 


返回 Rating 数据 类 型 (user: Int, product: Int, rating: Double) 的 List List 中 每 一 项 
都 是 系统 针对 产品 推荐 给 用 户 , rating 是 系统 给 的 评分 , rating 越 高 代表 针对 此 产 
品 越 优先 推荐 给 用 户 ; 返回 的 List 会 以 rating 从 大 到 小 排序 ， 也 就 是 说 第 一 项 是 
系统 推荐 最 有 兴趣 的 用 户 


可 以 使 用 下 列 指令 : 


> ”针对 电影 200 推荐 前 5 个 用 户 
使 用 训练 完成 模型 进行 推荐 ， 传 入 参数 (product=200,num=5)， 如 图 12-27 所 示 。 


In [20]: model.recommendUsers(product=200,num=5) 


outa [Tarnovor 00 Preer-200, retin-7-201107770105011 | 
Rating(user=857, product=200, rating=6.8806830828459695), 
Rating(user=829，product=299，rating=6.789958454867682)， 
Rating(user=762，product=299，rating=6.633666293993734)， 
Rating(user=143，product=299，rating=6.415461132252662)] 


12-27 针对 电影 200 推荐 前 5 个 用 户 


以 上 运行 结果 显示 ， 第 一 项 数据 是 系统 针对 电影 推荐 给 用 户 。 其 意义 是 针对 电影 ID 200 
推荐 给 用 户 ID 153， 推 荐 评分 大 约 为 7.2。 


显示 推荐 的 电影 名 称 


之 前 的 范例 只 显示 推荐 电影 的 ID， 接 下 来 将 介绍 如 何 显示 推荐 电影 的 名 称 。 
人 6i 读 取 uitem 文本 文件 


接 下 来 ， 我 们 使 用 sc.textFile 将 uitem 文本 文件 导入 itemRDD， 如 图 12-28 所 示 。 


In [22]: itemRDD = sc.textFile(Path+"data/u.item") 
itemRDD.count() 


Out[22]: 1682 


12-28 读 取 uitem 文本 文件 
以 上 运行 结果 共计 1682 项 电影 数据 。 
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人 2 创建 “电影 ID 与 名 称 ” 的 字典 (或 对 照 表 ) 
为 了 显示 推荐 电影 的 名 称 ， 必 须 创建 “电影 人 D 与 名 称 ” 的 字典 (对 照 表 )， 如 图 12-29 所 示 。 


In [23]: movieTitle= itemRDD.map( lambda line : line.split("|")) \ 
.map(lambda a: (float(a[0]),a[1])) \ 
.CollectAsMap() 
len(movieTitle) 


Out[23]: 1682 


12-29 创建 “电影 ID 与 名 称 ”的 字典 


以 上 运行 结果 显示 “电影 ID 与 名 称 ” 字 典 共 计 1682 项 。 
上 述 命令 说 明 如 表 12-11 所 示 。 


表 12-11 命令 说 明 
命令 说 明 
itemRDD 经 过 一 系列 命令 计算 ， 将 结果 存 入 movieTitle 字典 


使 用 map 方法 针对 每 一 项 数据 进行 转换 : 


和 每 一 项 数据 使 用 line.split("\") 以 | 符号 分 隔 字段 


使 用 map 方法 将 上 一 条 命令 读 取 的 前 两 个 字段 进行 转换 : 
-map(lambda a: (float(a[0]),a[1])) float(a [0]) 将 第 一 个 字段 转换 为 loat， 也 就 是 电影 ID; a[1] 
是 第 二 个 字段 ， 为 电影 的 名 称 


使 用 collectAsMap() 创 建 movieTitle 电影 ID / 名 称 字典 


(CI03 显示 字典 的 前 5 项 数据 


之 前 我 们 已 经 创建 movieTitle 字典 , 现在 可 以 使 用 下 述 命令 查看 对 照 表 前 5 条 数据 。 首 先 
使 用 movieTitle.items() 获取 movieTitle 电影 ID / 名 称 字典 , 并 使 用 [:5] 获取 前 5 项 数据 ， 
如 图 12-30 所 示 。 


In [24]: movieTitle.items()[:5] 

Outl24: [TL(1.0, u'Toy srory (1995),), | 
(2.0, u'GoldenEye (1995)"), 
(3.0, u'Four Rooms (1995)°'), 
(4.0, u'Get Shorty (1995)'), 
(5.0, u'Copycat (1995)')] 


图 12-30 显示 字典 的 前 5 项 数据 


从 以 上 运行 结果 可 以 看 出 第 一 项 MovieID 1 对 应 的 电影 名 称 为 Toy Story(1995)。 
全 D04 查询 电影 名 称 
有 了 字典 之 后 ， 可 以 使 用 命令 查询 每 一 个 movie ID 的 电影 名 称 。 
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例如 ，movieTitle[5]， 查 询 movie ID 5 的 电影 名 称 ， 如 图 12-31 所 示 。 


In [25]: movieTitle[ 引 


Out[25]: u'Copycat (1995) 


12-31 查询 电影 名 称 


以 上 运行 结果 显示 电影 名 称 为 Copycat(1995)。 
人 5 时 示 前 5 条 推荐 的 电影 名 称 
有 了 movieTitle 字典 ， 我 们 就 可 以 显示 推荐 的 电影 名 称 ， 如 图 12-32 所 示 。 


In [30]: recommendP= model.recommendProducts(100,5) 
for p In recommendP: 
Print "对 用 户 "+ str(p[0]) +\ 
"推荐 电影 "+ str(movieTitle[p[1]]) + \ 
"推荐 评分 "+ str(p[2]) 


对 用 户 100 推 荐 电影 Nar Room，The (1993) 推荐 评分 6.38897169311 

对 用 户 100 推 荐 电影 Radioland Murders (1994) 推荐 评分 5.91911314362 

对 用 户 100 推 荐 电影 Boys of St .Vincent，The (1993) 推荐 评分 5.65517596769 

对 用 户 100 推 荐 电影 Boys on the Side (1995) 推 荐 评分 5.45299734884 

对 用 户 100 推 荐 电影 Until the End of the World (Bis ans Ende der Welt) (1991) 推 荐 评分 5, 
37339552677 


12-32 ”显示 前 5 条 推荐 的 电影 名 称 


以 上 运行 结果 针对 用 户 100 推荐 5 部 电影 名 称 。 
上 述 命令 的 详细 说 明 如 表 12-12 所 示 。 


表 12-12 命令 说 明 
说 明 


recommendP= 
针对 用 户 100 推荐 5 部 电影 
model.recommendProducts(100,5) 


合用 for 谈 取 每 一 项 数据 


print” 对 用 户 "+str(p[0])+\ 显示 第 一 个 字段 用 户 
"推荐 电影 "+ str(movieTitle[p[1]])+\ 使 用 movieTitle 传 入 第 二 个 字段 电影 ID， 返 回电 影 名 称 


"推荐 评分 "+ str(p[2]) 显示 第 三 个 字段 推荐 评分 


创建 Recommend 项 目 


在 之 前 的 章节 中 ,我 们 已 经 使 用 IPython Notebook 示范 了 如 何 导 入 数据 、 创 建 Rating RDD、 
训练 模型 、 推 荐 产品 , 对 推荐 算法 流程 已 经 有 了 基本 概念 。 后 续 我 们 将 介绍 如 何 创 建 Spark 应 


299 


寿 ， Python+Spark 2.0+Hadoop 机 器 学 习 与 大 数据 实战 


用 程序 以 重复 使 用 。 这 里 我 们 将 建立 Recommend 推荐 系统 ,系统 中 有 2 个 程序 , 说 明 如 下 : 


> RecommendTrain.py 
(1) 数据 准备 阶段 
读 取 udata， 经 过 处 理 后 产生 评分 数据 ratingsRDD。 


(2) 训练 阶段 
评分 数据 ratingsRDD 经 过 ALS.train 训练 后 产生 模型 Model。 


(3) 存储 模型 
存储 模型 Model 在 本 地 或 HDFS 中 ， 作 为 后 续 推 荐 使 用 。 


> Recommend.py 

(1) 数据 准备 阶段 

读 取 uitem 经 过 数据 处 理 后 ， 产 生 movieTitle (电影 ID / 名 称 字典 )。 
(2) 载 入 模型 

载 入 之 前 存储 的 模型 Model。 


(3) 推荐 阶段 
使 用 模型 Model 进行 推荐 ， 并 使 用 movieTitle 转换 显示 推荐 的 电影 名 称 。Recommend 


推荐 系统 示意 图 如 图 12-33 所 示 。 
RecommendTrain.py 


ALS train 训练 


图 12-33 Recommend 推荐 系统 


第 全 章 Python Spark 创建 推荐 引擎 
人 1i 启动 eclipse ( 见 图 12-34) 


他 1. 在 图 标 上 双击 鼠标 左 键 


OO workspace Launcher pe . 
El 2. 默认 工作 目录 
Select a workspace 


Scala IDE stores your projects ina folder called a wor¥space, 
Choose a workspace Folder to use for this session. 


Workspace: |/home/hduser/workspace 。 Browse.. 


3. 单 击 OK 按钮 


Use this as the default and do not ask again 


Caren | 


图 12-34 启动 eclipse 
人 2 创建 Recommend 项 目 


参考 第 11.9 节 来 创建 新 的 RecommendTrain.py 程序 。 
(1) 用 鼠标 右键 单 击 PythonProject， 出 现 快捷 菜单 ， 依 次 选择 New 一 File 菜单 选项 。 
(2) 打开 New File 对 话 框 后 ， 输 入 “RecommendTrain.py”， 然 后 单 击 Finish 按钮 。 


创建 好 RecommendTrain.py 程序 后 ， 界 面 显示 如 图 12-35 所 示 。 


Pythonproject/RecommendTrain.py - Scala IDE 


串 - 


宇 回 图 9% 全 二 "GO"QvA 
BB PyDevPackageExplorer 只 


» > DO | 日 RecommendTrain & 
二 Pythonproject 
> Bd 


» BO WordCount py 
* @ python Vusr/bin/python2.7) 


2. 可 在 此 输入 
Python 程序 


图 12-35 创建 Recommend 项 目 
人 3 main 主 程序 代码 


编写 main 程序 代码 ， 这 是 程序 的 起 点 。main 程序 代码 分 为 下 列 3 部 分 。 
if name == " main ": 


sc=CreateSparkContext () 


print ("=: === 数据 准备 阶段 = 
ratingsRDD = PrepareData(sc) 
print ("========== 训练 阶段 ===============") 
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以 上 程序 代码 说 明 如 表 12-13 所 示 。 


表 12-13 ”main 程序 代码 说 明 
坚 序 代码 说 明 


条 
创建 SparkConf 配置 设置 对 象 
rati 


训练 阶段 使 用 ratingsRDD 执行 ALS 训练 , ALS 训练 , 参 数 rank=5， 
model = ALS.train(ratingsRDD, 5, 20, 0.1) iterations=20, lambda=0.1， 返 回 model 模型 


| 在 储 Model SaveModelsc) | 存储 训练 完成 的 模型 ， 作 为 后 续 预测 时 使 用 
04 存储 模型 model 


之 前 步骤 已 经 产生 model 模型 ， 我 们 可 以 存储 在 目录 中 ， 作 为 后 续 预 测 时 使 用 。 输 入 下 
列 程序 代码 ， 存 储 model 模型 。 


teSparkContext() 
下 读 取 udata 数据 ， 转 换 为 ratingsRDD 作为 后 续 训练 数据 
ingsRDD = PrepareData(sc) 
储 Model SaveModel(sc) 


如 果 我 们 再 次 运行 以 上 程序 代码 ， 因 为 模型 目录 已 经 存在 ， 程 序 就 会 发 生 错 误 。 为 了 解 
决 此 问题 , 程序 会 先 判断 ， 如 果 存储 模型 的 目录 已 经 存在 , 会 显示 错误 信息 。 在 这 里 我 们 使 用 
try: except Exception: 语句 ， 判 断 model.save(sc,modelPath) 是 否 发 生 错误 : 


@ ”如 果 存 储 模 型 的 目录 不 存在 ， 就 会 运行 存储 模型 。 
@ ”如 果 存 储 模型 的 目录 已 经 存在 ， 就 会 发 生 错 误 ， 显 示 错 误 信 息 。 


ENE 运行 RecommendTrain.py 推荐 程序 代码 


在 这 里 我 们 以 YARN-client 模式 运行 RecommendTrain.py 进行 推荐 。 


和 01 运行 RecommendTrain.py 程序 代码 
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按照 图 12-36 所 示 的 步骤 执行 RecommendTrain.py 程序 代码 。 


要 运行 的 程序 2. 单 击 此 运行 图 标 


让 用 7 和 v7 庆 7Y 中 忆 
1 spark-submit yarn-client 6 
2spark-submit 3. 单 击 yarn-client 
3spark-submit Standalone 模式 

vB pythonproject from pyspark.mllib.recon RunAs 


HS package Explorer 只 


白 


* 名 ALSmodel from pyspark import Spal 。 ExternalTools Configurations... 
* © data Organize Favorites... 

加 Recommend.py def SetLogger( sc ): 

BRecommendTrain.py logger = sc. jvm.org.apache.log4j 


12-36 运行 RecommendTrain.py 程序 代码 


运行 Recommend.py 程序 的 结果 如 图 12-37 所 示 。 


[GProblems Tasks |B console 3 


terminated> spark-submit yarn-client [Program] /usr/iocal/spark/bin/spark-sub! 
master=yarn-client 


SLF4j: Failed to load class "org.slf4j.impl.StaticLoggerBinder" 
SLF4j: Defaulting to no-operation (NOP) logger implementation 
SLF4j: See http://www,sIf4j.org/codes.html#StaticLoggerBinder for further details. 
已 存储 Model 在 ALSmodel 


图 12.37 运行 结果 
DT02 查看 存储 在 HDFS 中 的 模型 


以 上 程序 运行 后 ， 已 经 将 model 模型 存储 在 HDFS 中 。 我 们 可 以 在 “终端 ”程序 输入 
下 列 命 令 ， 查 看 已 经 存储 在 HDFS 中 的 模型 。 


hadoop fs -ls /user/hduser/ALSmodel 


运行 结果 如 图 12-38 所 示 。 


hduser@master: -~/pythonwork/Pythonproject 
hduser@master :~/pythonwork/Pythonproject$ hadoop fs -ls /user/hduser/ALSnodel 


- hduser supergroup 8 2616-63-18 13:15[/user/Phd 
ldrwxr-xr-x  - hduser supergroup © 2616-93-18 13:15 
hduser@master :~/pythonwork/Pythonproject$ 目 


图 12-38 查看 存储 在 HDFS 中 的 模型 


从 图 12-38 中 ， 我 们 可 以 看 到 model 模型 存储 在 /user/hduser/ALSmodel， 包 含 data 与 
metadata 。 
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创建 Recommend.py 推荐 程序 代码 


之 前 章节 我 们 已 经 运行 RecommendTrain.py 存储 模型 ， 现 在 我 们 要 创建 Recommend.py 
读 取 此 模型 ， 推 荐 用 户 或 电影 。 


人 TD) 创建 Recommend.py 
请 参考 第 11.9 节 来 创建 RecommendTrain.py 程序 。 


(1) 右 击 PythonProject， 出 现 快捷 菜单 ， 依 次 选择 New 一 File 菜单 选项 。 
(2) 打开 New File 对 话 框 后 ， 输 入 “Recommend.py”， 然后 单 击 Finish 按钮 。 


创建 完成 的 Python 程序 如 图 12-39 所 示 。 


吕 " 国 六 外 电 谢 三 日 加 用 用 要 攻 "0 "9 Fr or 


| 四 Package Explore 13 = ,|| necommend & 


BB%” 
v & pythonproject 
* data 
Recommend.py 
B RecommendTrain.py 
四 RecommendTrainEvaLpy 
回 RunDecisionTreeBinary.py 
BWordCount.py 


图 12-39 创建 完成 的 Python 程序 


人 2 main 主 程序 代码 
输入 main 主 程序 代码 ， 如 图 12-40 所 示 。 


if_name_==" main_* 
if len(sys.argv) = 3: 
print( "请 各 信 2 个 佐 垢 /) 
exit(-1) 


Recommend(model) 


图 12-40 输入 主 程序 代码 
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以 上 程序 代码 说 明 如 表 12-14 所 示 。 
表 12-14 ” 主 程序 代码 说 明 

程序 代码 说 明 
if len(sys.argv) != 3: 


print(" 请 输入 2 个 参数 ") 
exit(-1) 


本 程序 len(sys.argv) 必须 等 于 3。 如果 len(sys.argv) 不 
等 于 3， 就 结束 执行 


数据 准备 阶段 读 取 u.item 数据 ,转换 为 电影 ID 与 名 称 字典 ， 作 为 后 
(movieTitle) = PrepareData(sc) 续 显示 预测 结果 时 转换 电影 ID 为 电影 名 称 


载 入 模型 De 
model=loadModel(sc) 载 入 之 前 存储 的 模型 


进行 推荐 - 
ee 


> Recommend.py 输入 参数 处 理 


你 也 许 会 觉得 奇怪 ， 本 程序 只 需要 输入 两 个 参数 ， 但 是 为 何 判断 len(sys.argv) 必须 等 于 3? 
这 是 因为 我 们 执行 Recommend.py 命令 (例如 下 列 指令 ) 时 ， 在 程序 中 sys.argv 会 接收 到 3 个 值 。 


Spark-submit --driver-memory 512m --executor-cores 2 --executor-memory lg --master yarn --deploy-mode client 
~/pythonwork/PythonProject/Recommend.py --U 100 


® sys.argv[0]='/home/hduser/pythonwork/PythonProject/Recommend.py' 程序 的 路 径 。 
@ sys.argv[1]='--U' 第 1 个 参数 ， 代 表 要 执行 针对 用 户 推 荐 电影 。 
@ sys.argv[2]='100' 第 2 个 参数 ， 代 表 要 推荐 的 用 户 ID。 


人 03 创建 电影 ID 与 名 称 对 照 表 
输入 图 12-41 所 示 的 程序 代码 。 


def PrepareData 
Print(" 天 兽 芝 硫 S se 
itemRDD = sc.textFile(Path+ "data/u. item") 
movieTitle= itemRDD.map( lambda line : line.split("/")) \ 
.map(lambda a: (float(a[0]),a[l1])) \ 
.CollectAsMap() 
return(movieTitle) 


图 12-41 创建 “创建 电影 ID 与 名 称 ” 字 典 


以 上 程序 代码 主要 是 读 取 uitem 创建 “电影 ID 与 名 称 ” 字 和 典 〈 或 对 照 表 ) ， 后 续 我 们 
可 以 用 此 字典 将 电影 ID 转换 为 电影 名 称 。 


人 4 编写 Recommend(model) 函数 


执行 Recommend.py 必须 输入 参数 ， 告 诉 程序 当前 我 们 现在 要 执行 的 功能 : 
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@ 针对 此 用 户 推荐 电影 . 例如 , 执行 程序 Recommend.py --U100, 代表 针对 用 户 ID=100 
推荐 电影 。 

@ ”针对 电影 推荐 给 用 户 。 例 如 , 执行 程序 Recommend.py --M200 代表 针对 电影 ID=200 
推荐 给 用 户 


所 以 我 们 输入 Recommend(model) 函数 程序 代码 来 处 理 输入 参数 ， 如 图 12-42 所 示 。 
def Recommend(model): 
if sys.argv[1]=="-U’ 
RecommendMovies(model, movieTitle,int(sys.argv[2])) 
if sys.argv[1]=="—M" 
RecommendUsers(model, movieTitle,int(sys.argv[2])) 


12-42 编写 Recommend(model) 函 数 
程序 代码 判断 第 1 个 参数 argString[1]: 
eargString[1] 如 果 是 "--U"” 就 执行 : 


RecommendMovies (model, movieTitle,int(sys.argv[2])) 


其 中 ，int(sys.argv[2]) 读 取 第 2 个 参数 ， 转 换 为 int， 代 表 用 户 ID。 
针对 此 用 户 ID 推荐 电影 。 


eargString[1] 如 果 是 "--M" 就 执行 : 
RecommendUsers (model, movieTitle,int(sys.argv[2])) 


其 中 ，int(sys.argv[2]) 读 取 第 2 个 参数 ， 转 换 为 int 代表 电影 ID。 
针对 此 电影 ID 推荐 给 用 户 。 


I05 针对 此 用 户 推荐 电影 
创建 RecommendMovies 函数 ， 如 图 12-43 所 示 。 针 对 此 用 户 推 荐 电影 。 


def RecommendMovies(model, movieTitle, inputUserID): 
RecommendMovie = model.recommendProd ig 10) 


format( rmdloL movieTitielrmd[1]], rmd[2]) 
图 12-43 ”针对 用 户 推荐 电影 


以 上 程序 代码 : 


(1) 定义 RecommendMovies 函数 ， 输 入 参数 : model 载 入 的 模型 ，movieTitle 字典 ， 
inputUserID 输入 的 UserID 。 


(2) 使 用 model.recommendProducts(inputUserID, 10)， 针 对 此 用 户 ID 推荐 10 部 电影 。 
推 荐 结果 存储 在 RecommendMovie 中 。 
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(3) 使 用 for 读 取 RecommendMovie 每 一 项 数据 ， 并 显示 推荐 评分 。 


人 6 编写 RecommendUsers 函数 ( 见 图 12-44 ) 


def RecommendUsers(model, movieTitle, inputMovieID) : 
RecommendUser = model.recommendUsers(inputMovieID, 10) 
print “至 允 电影 局 1O 电影 宫 : (有关 学 天 列 居 户 凡人 
format( inputMovieID,movieTitle[inputMovieID]) 
for rmd in RecommendUser: 
Print “二 对 大 户 id {0} 差 劳 了 分 (1 "format( rmd[0],rmd[2]) 


图 12-44 写 RecommendUsers 函数 


以 上 程序 代码 主要 是 使 用 model.recommendUsers(inputMovieID, 10) 针 对 此 电影 ID 推荐 给 
10 个 用 户 ， 推 荐 结果 存储 在 RecommendUser。 然 后 使 用 for 读 取 RecommendUser 每 一 项 数 
据 ， 并 显示 推荐 评分 。 


07 编写 loadModel(sc) 载 入 模型 


输入 图 12-45 所 示 的 程序 代码 : 编写 loadModel(sc) 载 入 之 前 的 train 模型 。 


Hef loadModel(sc): 
try: 
model = MatrixFactorizationModel.load(sc, Path+ "AL Smode/") 


print“ 知 入 ALSMode/ 米 型 
except Exception: 

print“ 龙 外 到 4LSMode/ 秦 型， 洲 先 站 比 “ 
return model 


12-45 ”编写 loadModel(sc) 载 入 模型 


(1) 使 用 try: except Exception: 判断 模型 文件 是 否 存 在 ， 如果 不 存在 , 就 显示 错误 信息 。 
(2) 使 用 MatrixFactorizationModel.load 载 入 ALSModel 模型 ， 传 入 参数 sc 及 载 入 模 
型 文件 的 路 径 。 


在 eclipse 运行 Recommend.py 


人 EXOi 运行 外 部 工具 
按照 图 12-46 所 示 的 步骤 运行 spark-submit YARN-client 外 部 工具 。 
人 2 在 eclipse 运行 Recommend.py YARN client 模式 


在 这 里 我 们 输入 “--U 200”， 针 对 用 户 推荐 电影 〈 见 图 12-47)。 
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2. 单 击 此 运行 图 标 


se "FA7 训 "中 


回国 入 #0 


BRecommend 3 


所 PackageExplorer 3 = 口 


spark-submit Standalone 


日 所 = spark-submit 
vB pythonproject = def PrepareData(sc): RunAs » 
* BEALSmodel print( "元 奴 污 驱 电影 ID} ExtRrnal Tools Configurations... 
* 名 data itemRDD = sc.textFile(F org 
Recommend.py 


B RecommendTrain.py 


12-46 运行 外 部 工具 


[Eee 


Cancel 


12-47 针对 用 户 推荐 电影 


DI03 针对 用 户 推荐 电影 的 结果 


2. 单 击 OK 按钮 


上 面 针 对 用 户 推荐 了 电影 ， 然 后 输入 用 户 id 200， 程 序 就 会 显示 推荐 的 电影 。 评 分 越 高 ， 
越 会 针对 此 用 户 优先 推荐 此 电影 。 评 分 从 大 到 小 排序 ， 也 就 是 说 第 1 项 数据 是 系统 推荐 评分 


最 高 的 电影 ， 如 图 12-48 所 示 。 


目 console 3 

<terminated> spark-submit parameter [Program] /usr/local/spa i | 

i 

开始 读 取 电影 1D 与 名 称 字典 - 数据 准备 

SLF4j: Falled to load class "org.sif4j.impl.StaticLo > > 

SLF4j: Defaulting to no-operation (NOP) logger implementation 2. 载 入 模式 

SLF4j: See http://www.slf4}.org/codes.htmbs StaticL oggerBinder forTUrTer detals- 

匡 入 ALSModel 楼 型 

针对 用 户 ID 100 推荐 下 列 电影 : 、\ 半 和 一 习 
进行 推荐 


针对 用 户 ID 100 推荐 电影 Golden Earrings (1947) 推荐 评分 4.423338 

针对 用 户 ID 100 推荐 电影 Angel Baby (1995) 推荐 评分 4.37557495216 

针对 用 户 ID 100 推荐 电影 Saint of Fort Washington, The (1993) 推荐 评分 4.22678438113 
针对 用 户 ID 100 推荐 电影 Raiders of the Lost Ark (1981) 推荐 评分 4.19503743187 
针对 用 户 ID 100 推荐 电影 Star Wars (1977) 推荐 评分 4.15724060876 

针对 用 户 ID 100 推荐 电影 Boys, Les (1997) 推荐 评分 4.14287805881 

针对 用 户 ID 100 推荐 电影 Schindler's List (1993) 推荐 评分 4.08347849241 

针对 用 户 ID 100 推荐 电影 Love in the Afternoon (1957) 推荐 评分 4.08252926523 
针对 用 户 ID 100 推荐 电影 Shawshank Redemption, The (1994) 推荐 评分 4.07652684686 
针对 用 户 ID 100 推荐 电影 Titanic (1997) 推荐 评分 4.05029097191 


图 12-48 针对 用 户 推荐 电影 的 结果 
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304 再 次 运行 外 部 工具 


运行 spark-submit YARN-client 外 部 工具 ， 如 图 12-49 所 示 。 


2. 单 击 此 运行 图 标 


“77 

i 
2 3park<submit Standalone 
3spark-submit 

v @ pythonproject sdef PrepareDatal(sc): Run » 
* BE ALSmodel print( ”元 反 法 吏 志 影 ID! ExternakTools Configurations... 
* data itemRDD = sc.textFile(F Organize Havorites... 


3. 单 击 yarn-client 模式 


12-49 ”再 次 运行 外 部 工具 
05 针对 电影 推荐 给 感 兴趣 的 用 户 
在 这 里 我 们 输入 “--M 200”， 针 对 电影 推荐 有 兴趣 的 用 户 ， 如 图 12-50 所 示 。 


| 
Please input a value 
i 入 “--M200” 
到 i 


TET 


Cancel 
12-50 ”针对 电影 推荐 给 感 兴趣 的 用 户 
CT06 针对 电影 推荐 用 户 的 结果 


针对 电影 推荐 给 感 兴趣 的 用 户 后 输入 电影 的 id: 200， 程序 就 会 显示 感 兴趣 的 用 户 ; 评分 
越 高 ,代表 此 用 户 越 感 兴趣 。 评 分 从 大 到 小 排序 ， 也 就 是 说 第 1 项 数据 即 为 最 感 兴趣 的 用 户 ， 
如 图 12-51 所 示 。 
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目 Console 3 


<terminated> spark-submit parameter [Program] /usr/local/spark/bin/sp| 
master=|local[4] 


WR 
开始 读 取 电影 1D 与 名 称 字典 1. 数据 准备 


载 入 | 
SLF4j: Failed to load class "org.slfqj.impF d| 2 入 模式 


SLF4j: Defaulting to no-operation (NOP) Iloggerimplemen| 
SLF4j: See http://www.slf4j.org/codes.htmHtStaticLoggerBinder for further detalls. 
载 入 ALSModel 模 型 


二 一 -一 进行 推荐 二 = 一 一 一 一 一 一 和 
针对 电影 ID 200 电影 名 : Shinning, The(1980) 推荐 下 列 用 | 


针对 用 户 ID 519 推荐 评分 5.01478129151 
针对 用 户 ID 928 推荐 评分 5.01200658357 
针对 用 户 ID 252 推荐 评分 4.81628848983 
针对 用 户 ID 810 推荐 评分 4.78245984174 
针对 用 户 ID 628 推荐 评分 4.77465527222 
针对 用 户 ID 173 推荐 评分 4.7535567821 

针对 用 户 ID 808 推荐 评分 4.74415735237 
针对 用 户 ID 909 推荐 评分 4.73592035058 
针对 用 户 ID 688 推荐 评分 4.71956038379 
针对 用 户 ID 34 推荐 评分 4.69775847673 


图 12-51 针对 电影 推荐 用 户 的 结果 
结论 


本 章 介 绍 了 Spark MLlib 支持 的 ALS (Alternating Least Squares) 推荐 算法 的 基本 原理 ， 
并 且 完 成 数据 准备 、 训 练 模型 、 存 储 模型 、 进 行 推荐 。 下 一 章 我 们 将 介绍 决策 树 二 元 分 类 。 
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Python Spark MLlib 
决策 树 二 元 分 类 


决策 树 模型 的 应 用 广泛 ， 除 了 分 析 数 据 、 预 测 模型 ， 在 机 
学 习 上 也 有 应 用 。 决 策 树 的 优点 是 条 理 清晰 、 方 法 简单 、 易 
于 理解 、 适 用 范围 广 等 。 

本 章 将 使 用 决策 树 二 元 分 类 分 析 StumbleUpon 数据 集 ， 
预测 网 页 是 暂时 性 的 〈ephemeral) 或 是 长 青 的 〈evergreen )， 
并 且 调 校 参数 找 出 最 佳 参 数组 合 ， 提 高 预测 准确 度 


寿 ，Python+Spark 2.0+Hadoop 机 器 学 习 与 大 数据 实战 


国 届 决策 树 介 绍 | 


当 我 们 使 用 决策 树 分 类 算法 来 训练 数据 后 ， 会 以 feature (特征 字段 ) 与 label (标签 字段 ) 
建立 决策 树 。 例如， 图 13-1 使 用 湿度 与 气压 (feature 特征 字段 ) 来 判断 天 气 为 “ 晴 ” 或 “ 雨 ” 
(label 标签 字段 ， 也 就 是 我 们 预测 的 目标 )。 


< >1 项 Pa , 
é > @ 
L_ _ | 


maxBins 
13-1 ”使 用 湿度 与 气压 来 判断 天 气 为 “ 畏 ”或 “ 雨 ” 的 决策 树 
如 图 13-1 所 示 ， 当 我 们 使 用 历史 数据 执行 训练 时 会 建立 决策 树 。 可 是 决策 树 不 可 能 无 限 
成 长 ， 因 此 我 们 必须 限制 它 的 最 大 分 支 与 深度 ， 所 以 必须 设置 下 列 参 数 : 
@ ”maxBins 参数 : 决策 树 每 一 个 节点 最 大 分 支 数 。 
maxDepth 参数 : 决策 树 最 大 深度 。 
@ Impurity 参数 : 决策 树 分 裂 节点 时 的 方法 。 


当 我 们 在 父 节点 要 分 裂 节点 时 ， 以 什么 方法 作为 依据 呢 ? 例如 ,湿度 以 60 为 分 隔 点 ， 分 
为 大 于 60 或 小 于 60; 或 是 湿度 以 50 为 分 隔 点 ， 分 为 大 于 50 或 小 于 50。 到 底 哪 一 种 方式 比 
较 好 呢 ? 此 时 有 Gini 与 Entropy 两 种 判断 方式 : 


@@ 基尼 指数 (Gini) : 由 意大利 统计 学 家 Corrado Gini 发 明 ， 用 于 计算 数值 散布 程度 
( Statistical dispersion， 统 计 离 差 ) 的 指标 。 决 策 树 算法 对 每 种 特征 字段 分 隔 点 计算 估 
值 ， 选 择 分 裂 后 最 小 的 基尼 指数 ( Gini ) 方式 。 

@ 粹 (Entropy) : 粒 (Entropy) 也 被 用 于 计算 系统 混乱 的 程度 。 决 策 树 算法 对 每 种 特 
征 字段 分 隔 点 计算 估 值 ， 选 择 分 裂 后 最 小 的 灶 (Entropy ) 方式 。 
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132 “StumbleUpon Evergreen ”大 数据 器 题 


13.2.1 Kaggle 网 站 介绍 


Kagsgle 是 一 个 数据 分 析 的 竞赛 平台 ， 网 址 为 https:/www.kaggle.com/， 也 是 Crowdsourcing 
( 众 包 ) 的 平台 。 企 业 或 研究 者 将 大 数据 的 问题 发 布 到 网 站 上 ， 包 括 数据 、 问 题 说 明 、 期 望 的 
目标 、 奖 金 等 ， 以 向 大 众 征求 解决 方案 。 

网 络 上 任何 人 都 可 以 参与 大 数据 问题 的 竞赛 ;下载 数据 、 分 析 数 据 、 运 用 机 嚣 学习、 数据 
挖掘 等 知识 ， 建 立 算法 模型 并 解决 问题 ， 最 后 将 结果 上 传 到 网 站 上 。 如 果 提 交 申 请 的 结果 符合 
要 求 ， 并 且 在 参赛 者 中 排名 第 一 ， 就 可 以 获得 奖金 。 目 前 很 多 公司 也 会 通过 这 个 平台 寻找 大 数 
据 人 才 。 


13.2.2 “StumbleUpon Evergreen ”大 数据 问题 场景 分 析 


Kaggle 网 站 上 有 一 个 StumbleUpon Evergreen Classification Challenge 的 题目 。 

StumbleUpon http://www.stumbleupon.com/) 是 个 性 化 的 搜索 引擎 ， 会 按 用 户 的 兴趣 和 网 
页 评分 等 记录 推荐 给 你 感 兴趣 的 网 页 ， 例 如 新 文章 、 季 节 菜 单 、 新 闻 、 教 学 等 。 超 过 数 千 万 人 
使 用 StumbleUpon 查找 新 网 页 、 图 片 、 影 片 …… 

有 些 网 页 内 容 是 暂时 性 的 〈ephemeral)， 例 如 季节 菜单 、 当 日 股市 涨 跌 新 闻 等 。 这 些 文章 
可 能 只 是 在 某 一 段 时 间 会 对 读者 有 意义 , 过 了 这 段 时 间 对 读者 就 没有 意义 了 。 有 些 网 页 内 容 是 
长 青 的 (evergreen)， 例 如 理财 观念 、 育 儿 知 识 等 。 读 者 会 长 久 对 这 些 文章 感 兴趣 。 

分 辨 网 页 是 暂时 性 (ephemeral) 或 是 长 青 的 (evergreen)， 对 于 StumbleUpon 推荐 网 页 给 
用 户 会 有 很 大 帮助 。 例 如 ， 读 者 A 买卖 股票 ， 他 可 能 会 对 当日 股市 涨 跌 新 闻 感 兴趣 ， 可 是 过 
了 一 周 就 对 这 则 新 闻 没 兴趣 了 ; 如 果 是 理财 观念 的 文章 ， 读 者 A 可 能 会 长 久 有 兴趣 。 因 此 公 
司 找 来 了 大 数据 分 析 师 ， 负 责 “ 网 页 分 类 ”大 数据 项 目 。 

> 找 出 问题 

“ 问 对 问题 ”是 解决 问题 的 第 一 步 。 这 些 网 页 内 容 我 们 人 类 看 过 了 ,就 可 以 大 致 分 类 为 暂 
时 性 的 〈ephemeral) 或 是 长 青 的 〈evergreen)。 可 是 网 页 内 容 成 千 上 万 ， 我 们 不 可 能 有 足够 的 
人 力 去 判断 网 页 是 暂时 性 的 (ephemeral) 或 长 青 的 〈evergreen)。 不 只 是 因为 成 本 太 高 ， 根 本 
就 无 法 做 到 实时 性 。 

> 设计 解决 方案 模型 

此 时 机 器 学 习 (Machine Learning ) 就 派 得 上 用 场 了 。 我 们 的 目标 是 利用 机 器 学 习 (Machine 
Learning)， 通 过 大 量 网 页 数据 进行 训练 来 建立 一 个 模型 ， 并 使 用 这 个 模型 去 预测 网 页 是 属于 
暂时 性 的 “ephemeral) 或 长 青 (evergreen) 的 内 容 。 这 属于 二 元 分 类 问题 ， 接 下 来 的 章节 将 
使 用 二 元 分 类 算法 分 析 StumbleUpon 数据 集 。 预 测 哪些 网 页 是 暂时 性 的 或 可 以 长 久 存在 的 ， 
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并 且 找 出 最 佳 参数 组 合 ， 提 高 预测 准确 度 。 
后 续 章 节 我 们 将 以 不 同 的 机 器 学 习 分 类 法 分 析 “StumbleUpon Evergreen” 大 数据 问题 , 章 
节 安 排 如 表 13-1 所 示 。 


表 13-1 机 器 学 习 分 类 法 的 章节 安排 


决策 树 二 元 分 类 机 器 学 习 


设计 决策 树 二 元 分 类 机 器 学 习 模 型 面临 的 问题 


本 章 我 们 将 使 用 决策 树 二 元 分 类 设计 机 器 学 习 模型 ， 我 们 将 面临 下 列 问 题 ; 

(1) 如 何 搜集 数据 ? 

StumbleUpon 过 去 已 经 累积 了 大 量 的 网 页 数据 ， 后 续 我 们 将 介绍 StumbleUpon 数据 集 内 
容 。 

(2) 如 何 进行 数据 准备 ? 

StumbleUpon 数据 集 原始 的 数据 是 文本 文件 ， 我 们 必须 经 过 一 连 串 的 处 理 ， 提 取 特 征 字 
段 与 标签 字段 ， 创 建 训练 所 需 的 数据 格式 LabeledPoint。 

(3) 如 何 训练 模型 ? 

我 们 将 执行 DecisionTree 训练 ， 并 且 建 立 模型 。 

(4) 如 何 使 用 模型 进行 预测 ? 

建立 DecisionTree 模型 之 后 ， 我 们 可 以 使 用 这 个 模型 进行 预测 。 

(5) 如 何 评估 模型 的 准确 率 ? 

有 了 模型 之 后 , 我 们 希望 知道 这 个 模型 预测 的 准确 率 ， 必 须要 有 一 个 标准 来 评估 模型 的 准 
确 率 。 在 二 元 分 类 中 我 们 使 用 AUC 作为 评估 标准 。 

(6) 模型 的 训练 参数 如 何 影响 准确 率 ? 

在 训练 模型 时 我 们 会 输入 不 同 的 参数 ， 其 中 DecisionTree 参数 impurity、maxDepth、 
maxBins 的 值 会 影响 准确 率 以 及 训练 所 需 的 时 间 。 我 们 将 以 图 表 显 示 这 些 参 数值 ， 显 示 准 确 率 
与 训练 所 需 的 时 间 。 

(7) 如 何 找 出 准确 率 最 高 的 参数 组 合 ? 

DecisionTree 参数 impurity、maxDepth、maxBins 有 不 同 的 排列 组 合 ， 我 们 将 所 有 参数 
训练 评估 找 出 最 好 的 参数 组 合 。 
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(8) 如 何 确认 是 否 Overfitting 〈 过 度 训 练 ) ? 

Overfitting〈 过 度 训练 ) 是 指 机 器 学 习 所 学 到 的 模型 过 度 贴近 trainData， 从 而 导致 误差 变 
得 很 大 。 我 们 会 使 用 另外 一 组 数据 testData 再 次 测试 ， 以 避免 overfitting 的 问题 。 如 果 训 练 
评估 阶段 时 AUC 很 高 ， 但 是 测试 阶段 AUC 很 低 ， 代 表 可 能 有 overfitting 的 问题 。 如 果 测 
试 与 训练 评估 阶段 的 结果 中 AUC 差异 不 大 ， 就 代表 无 overfitting 的 问题 。 

以 上 问题 本 章 后 续 将 会 进行 解答 。 


13.4 如 何 搜集 数据 


13.4.1 StumbleUpon 数据 内 容 


可 以 在 下 列 网 页 查看 StumbleUpon 数据 的 详细 介绍 : 
https://www.kaggle.com/c/stumbleupon/data 
在 这 里 字段 是 以 0 为 第 1 个 字段 。 
> 字段 0~2 


网 址 、 网 址 ID、 样 板 文字 〈 见 图 13-2)， 这 些 字段 与 判断 网 页 是 暂时 性 的 ephemeral) 
或 长 青 的 (evergreen) 关系 不 大 ， 所 以 我 们 会 忽略 。 


FieldName Description 


Un of the webpage to be classified 


StumbleUpon's unique identifier for each url 


boilerplate Boilerplate text 


图 13-2 字段 0-2 


> 字段 3~25 


Feature 特征 字段 :数值 字段 ， 内 容 是 有 关 此 网 页 的 相关 信息 ， 例 如 网 页 分 类 、 链 接 的 数 
目 、 图 像 的 比例 等 ， 如 图 13-3 所 示 《〈 字 段 太 多 只 列 出 部 分 ， 其 他 请 参考 网 页 )。 
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Alchemy category (per the publicly available Alchemy APIfound at 
www.alchemyapi com) 


alchemy_category string 


Alchemy category score (per the publicly available Alchemy API found 


alchemy_category_score double 
at www alchemyapi com) 

avglinksize double Average number of words in each link 
commonLinkRatio_1 double # of links sharing at least 1 word with 1 other links /# of links 
commonLinkRatio_2 double # of links sharing at least 1 word with 2 other links /# of links 
commonLinkRatio_3 double # of links sharing at least 1 word with 3 other links /# of inks 
commonLinkRatio 4 double # of links sharing at least 1 word with 4 other links /# of links 
compression_ratio double Compression achieved on this page via gzip (measure of redundancy) 
embed_ratio double Count of number of <embed> usage 

integer (0 “|Apageisframe-based (1) fit has no body markup but have a 
frameBased 

or1) frameset markup 
frame TagRatio double Ratio of iframe markups over total number of markups 

integer (0 
hasDomainLink True (1) ft contains an <a> with an url with domain 

or1) 
html_ratio double Ratio of tags vs text in the page 


图 13-3 字段 3~25 
> 字段 26 
这 是 label， 具 有 两 个 值 ( 见 图 13-4)。 


@ 1: 代表 长 青 (evergreen ) 一 一 此 网 页 会 持续 让 用 户 感 兴趣 。 
@ 0: 代表 non-evergreen 一 一 此 网 页 具有 暂时 性 。 


integer (0 | User-determined label Either evergreen (1) or non-evergreen (0); 
or1) available for traintsv only 


图 13-4 字段 26 
13.4.2 下 载 StumbleUpon 数据 
GI01 到 下 载 网 址 
在 浏览 器 输入 下 列 网 址 ， 进 入 Kaggle 网 站 的 StumbleUpon 页 面 : 


https://www.kaggle.com/c/stumbleupon/data 


在 网 页 中 ， 可 以 看 到 两 个 文件 ，train.tsv〔 训 练 数据 〉 、testtsv 〈 测 试 数据 ) 。 我 们 将 下 
载 这 两 个 文件 。 先 示范 如 何 下 载 traintsv (训练 数据 》， 如 图 13-5 所 示 。 
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ee @ 


@ StumbleUpon Evergreen Classification Challenge 


» GettheDaa » 


用 鼠标 单 击 要 


下 载 训练 数据 


NEF:ELLELIELERE 


There are two componenty to the date provided for thls chellenge: 


13-5 选择 下 载 train.tsv 文件 
人 2 注册 网 站 
下 载 前 必须 先 注册 ， 可 以 使 用 邮箱 账号 进行 注册 ， 如 图 13-6 所 示 。 


图 13-6 注册 


303 下 载 traintsv ( 见 图 13-7) 


Data -StumbleUp: 


志 日 Jagglecom 
We are making our URLs prettier -- Claim your personal URL now 


Opening traintsv 


You have chosen to oper: 


tralntsy 
省 Fa fag re A hallenge 


2. 单 击 OK 按钮 


图 13-7 下 载 traintsv 
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G04 打开 所 在 的 文件 天 ( 见 图 13-8 ) 


Data- StumbleUpon Evergreen Classification Challenge | Kaggle - Mozilla Firefox 
x 


k Data-StumbleUpon.. 


€a kaggle.com, 


a 
画 


Q 女 白 [ 晤 | 全 


traintsv 
局 | 


单 击 train.tsv, 打开 
其 所 在 的 目录 


Host 。 Competitions 


ShowAll Downloads 
We are making our URLs preitier -- Claim your personar URL nowr 


13-8 打开 所 在 的 文件 夹 


人 5 下 载 testtsv 


按照 类 似 步 又 下 载 test.tsv 测试 数据 ， 如 图 13-9 所 示 。 


和 @ 


©@ StumbleUpon Evergreen Classification Challenge 


下 载 的 test.tsv 测试 数据 


@ 回 妆 雹 回转 团 国 吗 口 妈 9 园 豆 


图 13-9 选择 testtsv 文件 


《EX66 查看 已 下 载 的 文件 


全 部 下 载 完成 后 可 以 看 到 两 个 文件 ，test.tsv〔 测 试 数据 ) 、train.tsv〔 训 练 数据 ) ， 如 图 


13-10 所 示 。 
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| 位 置 大 小 类 型 ”已 修改 


S| EECTOEEEEE 


全 主 光 件 守 220MB 文字 21:09 
面 末 面 


日 观 频 
向 图 片 


sa train.tsv 文件 


图 13-10 查看 已 下 载 的 文件 


第 13 章 ”Python Spark MLlib 决策 树 二 元 分 类 “ 


13.4.3 用 LibreOffice Calc 电子 表格 查看 train.tsv 
G01 打开 traintsv 文 件 ( 见 图 13-11) 


大 小 类 型 已 修改 
加 最 近 使 用 的 testtsv 9.4MB 文字 21:09 
会 主 文件 夹 


22.0MB 文字 21:09 
太 闽 面 


i 用 鼠标 双击 taintsv 文件 


Be 即 可 打开 该 文件 


图 13-11 打开 train.tsv 文 件 


人 2 导入 traintsv 文字 到 LibreOffice Calc 电子 表格 


tsv 文件 默认 会 以 LibreOffice Calc 电子 表格 打开 。tsv 文件 的 字段 之 间 是 以 制 表 符 分 隔 的 ， 
在 “导入 文字 ”界面 进行 参数 设置 ， 如 图 13-12 所 示 。 


导入 


FA TI 1. 分 隔 选项 : 单 击 “ 分 隔 ” 
语言 QD) 默认 -中文 (面体 ) 2 


开始 的 行 数 () | 


分 隔 选 项 
国定 的 砍 度 昌 


其它 
文字 分 后 符 4) | 


闪 测 特 内 和 = | 2 以 “ 制 表 符 ”分 隔 字段 


其 他 选项 
引用 字段 作为 文字 (Q) 


闻 段 
Ns 
昧 准 
Thrl 
ZT http://wnw.bloomberg.com/news/2810-12-23/ibm-predicts-holographic-ca) 
3 http://wnw.popsci.com/technology/article/2012-67/electronic-futurist: 
4 http:7/wnw.nenshealth. con/health/flu-fiohting fruits?em mme=Facebook 
5 http:7/wnw. dumblittlenan. con/2067/12/16-Toolproof -tips-Tor -better-sld 
6 http:7/bleacherreport.con/articles/1205138-the-50-coolest-jerseys-yo( 


onital-horpes -hone .php 
3. 单 击 “ 确 定 ” 按 钮 
QMO LL 


B03 查看 已 经 打开 的 train.tsv 


打开 后 的 屏幕 显示 界面 如 图 13-13 所 示 。 
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图 13-13 查看 已 经 打开 的 train.tsv 
704 设置 里 示 宽度 
因为 url 字段 太 宽 会 影响 阅读 ， 所 以 设置 所 有 字段 固定 宽度 ， 如 图 13-14 所 示 。 


图 13-14 设置 显示 宽度 
(C705 设置 字段 的 宽度 
设置 所 有 字段 固定 宽度 为 5 厘米 ， 如 图 13-15 所 示 。 


1. 输入 5 厘米 


13-15 ”设置 字段 的 宽度 


06 查看 feature 字段 
我 们 先 看 一 下 原始 数据 ， 思考 如 何 处 理 这 些 字段 (参考 图 13-16 和 图 13-17)。 各 字段 的 说 
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明 如 表 13-2 所 示 。 


国 [Uberation Sons 


， 向 卫 = sports 


hemy_careqory_3core 
Q790131 

Qs7a147 3577966102 

O990526 .362662883 

0.801248| 工 343103448 

Q719157 .6576470588 

ll9 

[2 773609524 

.8863333333 

0.471502501 

.41011236 

OLB10004 2.500527415 

.89156 4.366111111 

Da72323 了 056010569 

9 


字段 3 是 分 类 特征 字段 


13-16 ”查看 feature 字段 (一 ) 


较 |oroidsansFallbad » [10 


AG2 "f= | 


parametrizedLinkRatio 
0.152941176 
0.181818182 
0.166666667 
0.041666667 
0.098765432 
0.054545455， 
0.548387097， 
0.068181818 
0.644329897 
0.236196319， 


字段 26 是 label 字段 


图 13-17 查看 feature 字段 (二 ) 


表 13-2 feature 字段 说 明 
字段 分 类 说 明 
url、urlid 对 于 网 站 是 否 长 久 存在 没有 太 大 的 关系 ， 所 以 忽略 


ee 网 页 分 类 ， 例 如 business、health 、sports…… 


PP 例如 链接 的 数目 、 影 像 的 比 
数值 特征 字段 i 


label 标签 字段 ， 也 是 数值 字段 : 
label 标签 字段 。1 代表 evergreen (长 青 的 ) ， 此 网 页 会 持续 让 用 户 感 兴趣 
。0 代表 non-evergreen， 此 网 页 是 暂时 性 的 
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人 7 用 LibreOffice Calc 电子 表格 查看 test.tsv 


以 类 似 的 步骤 打开 test.tsv。test.tsv 字段 没有 label 字段 ， 其 余 字 段 与 train.tsv 完全 相同 ， 
如 图 13-18 所 示 。 


(a ME de 
较 |uberatonsans "ho lv 有 4A EE 


-| fy = [0107717042 


Y 
PammetizedtinkRato 


0.242647059 


test.tsv 没有 
label 字段 


0.272727273 
0.105517241 
0.027272727- 

0 


.071428571 
0.074766355 
0.109589041 
0 
0.350447005 
0.25 


0 
.oo7246377 


和 


其 PS ~ 本 持 全 名 站 比 时 大 小 祝 。G 


工作 表 1/11 PR Pi 1-0107717042 - + 100% 


13-18 查看 test.tsv 文件 
本 08 trainitsv 与 test.tsv 比较 ( 见 表 13-3 ) 


表 13-3 train.tsv 与 test.tsv 比较 
文件 说 明 


具有 feature (特征 字段 ) 与 label (标签 字段 )， 将 用 于 训练 数据 


只 有 feature (特征 字段 ) ， 将 用 于 预测 数据 


13.4.4 复制 到 项 目 目录 
后 续 我 们 将 在 本 地 或 cluster 模式 运行 Spark 所 以 我 们 先 将 文件 复制 到 本 地 与 HDFS 目录 


CI01 复制 下 载 文件 至 项 目 data 子 目录 


在 “终端 ”程序 中 输入 下 列 命令 ， 将 我 们 之 前 下 载 的 StumbleUpon 数据 集 文件 复制 到 项 
目的 data 子 目录 。 


> 复制 train.tsv 到 项 目的 data 子 目 录 
cp ~/ 下 载 /train.tsv ~/pythonwork/PythonProject/data 


> 复制 test.tsv 到 项 目的 data 子 目录 
cp ~/ 下 载 /test.tsv ~/pythonwork/PythonProject/data 
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> 查看 项 目的 data 子 目 录 


11 ~/pythonwork/PythonProject/data/*.tsv 


执行 后 的 屏幕 显示 如 图 13-19 所 示 。 


hduser@master: ~ 


duser@master:~$ cp ~/ 下 载 /train.tsv ~/pythonwork/PythonProject/data 

duser@mast. cp ~/ 下 载 /tratn.tsv ~/pythonwork/PythonProject/data 

duser@mast: 1 ~/pythonwork/Pythonproject/data/*.tsv 

-rwxrwxrwx 1 root root 9428656 2 月 2 14:49 会 
-rwxrwxrwx 1 root root 21972916 3 月 24 12:15 
duser@master:~$ 


13-19 复制 下 载 文件 至 项 目 data3 目录 
人 2 复制 到 HDFS ( 见 图 13-20 ) 
> 切换 到 项 目的 data 子 目 录 


cd ~/pythonwork/PythonProject/data 
> ”复制 到 HDFS data 目录 
第 9 章 应 该 已 经 创建 了 HDFS 目录 /user/hduser/data。 


hadoop fs -copyFromLocal *.tsv /user/hduser/data 


> HDFS data 目录 
hadoop fs -ls /user/hduser/data/*.tsv 


hduser@master: ~/pythonwork/PythonProject/data 


hduser@master:~$ cd ~/pythonwork/PythonProject/data 
hduser@master:~/pythonwork/Pythonproject/data$ hadoop fs -copyFromLocal *.tsv /user/hduser/data 
hduser@master:~/pythonwork/Pythonproject/data$ hadoop fs -ls /user/hduser/data/*.tsv 

-rw-r--r-- 3 hduser supergroup 9428656 2616-63-24 12:29 /user/hduser/data/test.tsv 
-rw-r--r-- 3 hduser supergroup 21972916 2616-63-24 12:29 /user/hduser/data/train.tsv 


图 13-20 复制 到 HDFS 


使 用 IPython Notebook 示范 


为 了 让 大 家 更 容易 理解 决策 树 算法 ， 我 们 先 使 用 IPython Notebook 示范 。 使 用 IPython 
Notebook 具有 互动 性 的 好 处 ， 可 以 看 到 命令 执行 后 的 结果 。 以 下 示范 在 本 地 执行 ， 读 者 也 可 
以 参考 第 9.9 节 的 说 明 ， 在 不 同 的 横 式 运行 IPython Notebook。 


在 local 模式 启动 IPython Notebook 


> 切换 到 ipynotebook 工作 目录 
cd ~/pythonwork/ipynotebook 
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> 在 local 模式 运行 IPython Notebook 


PYSPARK DRIVER PYTHON=ipython PYSPARK DRIVER PYTHON OPTS="notebook" 
MASTER=local [*] pyspark 


13.6 如 何 进行 数据 准备 


StumbleUpon 数据 集 的 原始 数据 是 文本 文件 ， 我 们 必须 经 过 一 连 串 的 处 理 ， 提 取 特 征 字 
段 与 标签 字段 ， 建立 训练 所 需 的 数据 格式 LabeledPoint， 并 以 随机 方式 按照 8:1:1 比例 把 数据 
分 割 为 3 个 部 分 trainData、validationData、testData: 


@ trainData (训练 数据 ) : 以 此 数据 训练 模型 。 
@ validationData ( 验证 数据 ) : 作为 评估 模型 使 用 。 
@ testData (测试 数据 ) : 作为 测试 数据 使 用 。 


程序 流程 示意 图 如 图 13-21 所 示 。 


数据 准备 阶段 
train tsv train 
Data 
validation 
Data 


13-21 程序 流程 示意 图 
13.6.1 导入 并 转换 数据 


全 TJ01 配置 文件 读 取 路 径 
首先 我 们 必须 配置 文件 读 取 路 径 ， 如 图 13-22 所 示 。 


In[2]: globalPath 
if sc.master[0:5]=="local" : 
Path="file:/home/hduser/pythonwork/PythonProject/” 
else: 
Path="hdfs://master:9000/user/hduser/” 


13-22 配置 文件 读 取 路 径 
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以 上 程序 判断 : 


@ 如果 sc.master[0:5] 是 "local"， 就 代表 当前 是 本 地 运行 ， 直 接 读 取 本 地 文件 。 
@ 如果 sc.master[0:5] 不 是 "local"， 就 有 可 能 是 YARN Client 或 Spark Stand Alone， 
必须 读 取 HDFS 文件 。 
GT02 读 取 文 本 文件 并 查看 数据 
以 sc.textFile 读 取 train.tsv， 并 使 用 take(2) 查看 前 两 项 数据 ， 如 图 13-23 所 示 。 


In [5 print(" 开 始 导入 数据 .…) 
rawDataWithHeader = sc.textFile(Path+"data/train.tsv”) 
rawDataWithHeader.take(2) 


13-23 读 取 文本 文件 


运行 结果 如 图 13-24 所 示 。 


Out[5]: | [u'"url"\t"urlid"\t"boilerplate"\t"alchemy_category"\t"alchemy_category_score"\t" 
avglinksize"\t"commonlinkratio_1"\t"commonlinkratio_2"\t"commonlinkratio_3"\t"com 
monlinkratio_4"\t"compression_ratio"\t"embed_ratio"\t"framebased"\t"frameTagRatio 
"\t"hasDomainLink"\t"html_ratio"\t"image_ratio"\t"is _news"\t"lengthyLinkDomain"\t 
"linkwordscore"\t"news_front_page"\t"non_markup_alphanum_characters"\t"numberofLi 
nks"\t"numwords_in_url"\t"parametrizedLinkRatio"\t"spelling_errors_ratio"\t"label 

U'"http://www.bloomberg.com/news/26196-12-23/ibm-predicts-holographic-calls-air-b 
reathing-batteries-by-2915.html"\t"4642"\t"{f""title"":""IBM Sees Holographic Call 
Ss Air Breathing Batteries ibm sees holographic calls, air-breathing batteries""," 
"body"":""A sign stands outside the International Business Machines Corp IBM Alma 
den Research Center campus in San Jose California Photographer Tony Avelar Bloomb 
erg Buildings stand at the International Business Machines Corp IBM Almaden Resea 
rch Center campus in the Santa Teresa Hills of San Jose California Photographer T 


图 13-24 查看 数据 


从 中 可 以 发 现 train.tsv 有 下 列 几 个 问题 : 

(1) 第 一 项 数据 是 字段 名 。 

如 图 13-24 所 示 ， 第 一 项 数据 是 字段 名 而 不 是 数据 的 必须 删除 。 
(2) 每 一 项 数据 以 “\” 制 表 符 分 隔 每 一 个 字段 〈 见 图 13-25)。 


[uurl"\t"urlid"\t"boilerplatel'\t"HTcheny-c 


图 13-25 每 一 项 数据 以 “\t” 分 隔 字段 


(3) 每 一 个 字段 前 后 都 有 双 引 号 “"” 分 隔 〈 见 图 13-26)。 


[u' "url"\thriid"\t"boiterpiater\traid 双 引 号 “ww 分 隔 


13-26 每 一 个 字段 由 “"” 分 隔 
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(4) 有 些 字段 无 数据 ， 以 问号 “?” 表 示 。 
请 参考 第 13.2.3 节 以 LibreOffice Calc 电子 表格 查看 train.tsv， 如 图 13-27 所 示 。 


图 13-27 以 “? ”表示 无 数据 
人 3 读 取 文本 文件 
为 解决 train.tsv 的 上 列 问题 ， 我 们 编写 图 13-28 所 示 的 程序 来 处 理 数据 。 


In [4J: print(" 开始 导入 数据 .…") 
rawDataWithHeader = sc.textFile(Path+"data/train.tsv") 
header = rawDataWithHeader.first() 
rawData = rawDataWithHeader.filter(lambda x:x !=header) 
rData=rawData.map(lambda x: x.replace("\"", "")) 


lines = rData.map(lambda x: x.split("\t")) 
print(" 共 计 : "+ str(lines.count()) + "项 ") 


共计 :7395 项 


图 13-28 编写 程序 读 取 文本 文件 
以 上 程序 代码 说 明 如 下 : 


> 导入 train.tsv 
读 取 train.tsv 并 载 入 rawDataWithHeader。 


rawDataWithHeader = se.textFile(Patht"data/train.tsw) 
> 删除 第 一 项 字段 名 
因为 tsv 文件 第 一 项 数据 是 字段 名 而 不 是 数据 ， 所 以 必须 删除 第 一 项 数据 。 


首先 使 用 .first() 获取 第 一 行 表 头 数据 ， 然 后 使 用 filter 筛选 不 是 第 一 项 字段 的 数据 。 


> 删除 双 引 号 
使 用 x.replace(\","") 将 双 引号 “"” 删 除 。 


第 13 章 Python Spark MLiib 决策 树 二 元 分 类 二 


DatasrawDatamap(lanbda x: x.replace vv rr 
> ”获取 每 一 行 数据 字段 
因为 文本 文件 是 以 Tab 键 分 隔 字段 的 ， 所 以 使 用 "\t"” 分 隔 字 段 来 获取 每 一 个 字段 。 
lines = rzData'map(lanbda x: x.split(\ty) 
> 显示 数据 项 数 
print(" 共 计 :" +str(lines.count0) + "项 站 
G04 查看 第 一 项 数据 
字段 0-2〈 网 址 、 网 址 ID、 模 板 文 字 ) 与 判断 网 页 是 暂时 性 的 (ephemeral) 或 是 长 青 的 


(evergreen) 关系 不 大 , 所 以 会 忽略 掉 。 以 下 数据 lines.first() 读 取 第 一 项 数据 , [3:] 读 取 第 3 
个 字段 之 后 的 数据 。 


In [可 lines.first0[33] 


category feature 分 类 特征 字段 


运行 后 结果 如 图 13-29 所 示 。 


business 
u"9.789131'， 
u'"2.955555556'"， 
u'0.676479588"', 
Uu'0.205882353', 
Uu'0.047658824', 
Uy'0.923529412', 


numberical feature 数值 特征 字段 


Uu'0.152941176', 
山 9.979129575 


label 标签 字段 


图 13-29 查看 数据 


13.6.2 ”提取 feature 特征 字段 


> 编写 extract features 函数 
为 了 提取 数据 的 feature 特征 字段 ， 可 以 编写 extract_ features 函数 ， 如 图 13-30 所 示 。 
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In [46]: Import numpyas np 


def extract features(fileld,categorlesMap, featureEnd): 
# 理 驱 分 关 竺 丰产 届 1. 提取 分 类 特征 字段 
categoryIdx = categorlesMap[field[3]] 


categoryFeatures = np.zeros(len(categorlesMap)) 


categoryFeatures[categoryIdx] = 1 放 
#j2S5CMKB5K | | 2. 提取 数值 特征 字段 
numerlcalFeatures=[convert_float(field) for field In fleld[4: featureEnd]] 

# 次 回 分 闪 适 证 关羽” + ' 懂 硬 桂 正文 5" 

return np.concatenate(( eeonfeates nmeniaeal 


def convert float(x): 来 返回 人 分 类 特征 字段 
return (0 If x=="?" else float(x)) 二 -请 数值 特征 字段 » 


13-30 ”编写 extract features 函数 
以 上 程序 代码 说 明 如 表 13-4 所 示 。 
表 13-4 extract features 函数 代码 说 明 
命令 详细 说 阴 
| impornumpyasm | 导入 mmpy 模 岂 
定义 extract_features， 传 入 下 列 参 数 : 
* field: 每 一 项 数据 


。categoriesMap: 字典 
*featureEnd: 提取 特征 字段 结尾 


def extract features( field, 
categoriesMap, 
featureEnd): 


extract_features 函数 主要 分 为 以 下 3 部 分 。 


(1) 提取 分 类 特征 字段 : 提取 结果 存放 在 categoryFeatures List 中 ， 在 第 13.6.3 小 节 会 
详细 说 明 。 

(2) 提取 数值 特征 字段 : 提取 结果 存放 在 numericalFeatures List 中 ， 在 第 13.6.4 小 节 
会 详细 说 明 。 

(3) 返回 “分 类 特征 字段 ”+“ 数 值 特征 字段 ”: 在 第 13.6.5 小 节 会 详细 说 明 。 


13.6.3 ”提取 分 类 特征 字段 


此 数据 集 的 第 3 个 字段 是 alchemy_category 网 页 分 类 以 上 程序 代码 主要 是 处 理 字段 3 
网 页 分 类 ， 这 是 分 类 特征 〈Category Feature) 字段 ， 必 须 转 换 为 数值 字段 才能 够 被 分 类 算法 使 
用 。 转 换 的 方法 是 以 OneHotEncoder 的 方式 进行 。 如 果 网 页 分 类 有 N 个 分 类 ， 就 会 转换 为 N 
个 数值 字段 。 处 理 步骤 如 下 : 


(1) 创建 categoriesMap 网 页 分 类 字典 ， 一 个 分 类 对 应 一 个 数字 。 

(2) 分 类 特征 字段 使 用 categoriesMap( 网 页 分 类 字典 )， 转换 为 数字 ， 例 如 business 通 
过 categoriesMap 转换 后 categoriesIdx=2。 

(3 )categoriesIdx= 2 再 以 OneHotEncoder 方式 转换 为 categoryFeatures List 从 0 算 起 ， 
位 置 2 是 1， 结 果 是 0,0,1,0,0,0,0,0,0,0,0,0,0,0， 共 14 个 数值 字段 。 


程序 流程 示意 图 如 图 13-31 所 示 。 
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分 类 特征 字段 categoriesldx categoryFeatures 14 个 数值 字段 


categoriesMap 
网 页 分 类 字典 


13-31 程序 流程 示意 图 
和 DI01 建立 categoriesMap 网 页 分 类 字典 
我 们 可 使 用 下 列 指令 创建 网 页 分 类 字典 。 


In [6]: categoriesMap =lines.map(lambda fields: fields[3]) \ 
.distinct().zipWithIndex().collectAsMap() 


以 上 命令 的 详细 说 明 如 表 13-5 所 示 。 
表 13-5 网 页 分 类 字典 的 命令 说 明 
详细 说 明 


ategoriesMap -lines map | 将 之 前 读 取 的 文字 数据 经 过 一 连 囊 的 处 理 后 存 入 categoriesMap 
map(lambda fields: fields[3]) 读 取 第 3 个 字段 


and。 
[zipwithindex0 | 隐 第 3 个 字段 中 不 重复 的 数据 进行 编号 
eeeasVn0 | 的 di 字典 


人 2 查看 categoriesMap 字典 


创建 完成 后 ， 查 看 categoriesMap 字典 ( 见 图 13-32 )。 


In [43]: categoriesMap 


out[43]: {u'?': 12, 
u'arts_entertainment': 13, 
u'business': 2, 
u'computer_internet': 3, 
u'culture_politics': 5, 
u'gaming': 9, 
u'health': 11, 
u'law_crime': 7, 
u'recreation': 1, 
u'religion': 9, 
U'science_technology': 6, 
u'sports': 8, 
U'unknown"': 4, 
U'weather ': 19} 


图 13-32 查看 categoriesMap 字典 
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我 们 可 以 看 到 每 一 个 分 类 都 对 应 一 个 数字 ， 例 如 business 对 应 2。 
人 3 查看 categoriesMap 项 数 


我 们 还 可 以 使 用 len() 函数 来 查看 categoriesMap 项 数 ， 显 示 共 有 14 项 数据 。 


In [44]: len(categoriesMap) 
Out[44]: 14 


D04 查看 categoriesMap 数据 类 型 
可 以 用 type() 函数 来 查看 categoriesMap 数据 类 型 是 dict 字典 。 


In [45]: type(categoriesMap)| 


Out[45]: dict 


05 提取 分 类 特征 字段 


提取 分 类 特征 字段 ， 程 序 代码 如 图 13-33 所 示 。 


# 超 避 分 类 竺 克文 情 

categoryIdx = categoriesMap[field[3] 
categoryFeatures = np.zeros(len(categoriesMap)) 
CategoryFeatures[categoryIdx] = 1 


13-33 ”提取 分 类 特征 字段 
> 网 页 分 类 转换 为 数值 


categoryIdx = categoriesMap [field[3]] 


网 页 分 类 原本 是 文字 ,我们 必须 转 为 数值 。 使 用 categoriesMap 字典 传 入 字段 3， 并 且 转 
换 为 数值 。 例 如 ， 此 项 数据 分 类 是 business， 我 们 会 转换 为 categoryIdx=2。 


> 初始 化 categoryFeatures 


CategoryFeatures = np.zeros (len (categoriesMap) ) 


上 述 语句 我 们 使 用 np.zeros， 传 入 参数 len(categoriesMap)， 也 就 是 14。 命 令 执 行 后 会 创 
建 一 个 新 的 categoryFeatures List， 其 中 的 值 都 是 0，List 的 大 小 是 14， 也 就 是 
0,0,0,0,0,0,0,0,0,0,0,0,0,0。 


> 设置 List 相对 应 的 位 置 是 1 
categoryFeatures[categoryIdx] = 1 


设置 categoryFeatures List 相对 应 的 位 置 是 1, 其 余 位 置 默认 是 0。List 的 位 置 是 从 0 
始 的 。 若 字段 3 的 值 是 business， 则 经 过 字典 转换 后 categoryIdx=2。 所 以 我 们 会 设置 
categoryFeatures List 中 从 0 算 起 第 2 个 位 置 是 1， 结 果 是 0,0,1,0,0,0,0,0,0,0,0,0,0,0。 
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13.6.4 ”提取 数值 特征 字段 
此 数据 集 的 第 4 至 25 字段 (也 就 是 倒数 第 二 个 字段 ) 是 数值 特征 字段 ， 必 须 转化 为 数值 。 
人 Ri) 定义 convert float 


因为 文本 文件 中 很 多 字段 数据 没有 数值 ， 会 以 “? ”代表 ， 所 以 下 列 程序 会 判断 是 否 为 
“? ”。 如 果 是 ， 就 返回 数值 0， 如 果 不 是 0， 就 转换 为 float。 


人 2 处 理 数 值 字 段 
处 理 数值 字段 的 程序 代码 如 下 : 


(1) 因为 我 们 是 读 取 文本 文件 ， 数 据 类 型 是 string， 所 以 每 一 个 字段 必须 转换 为 float。 

(2) [convert_float(field) for field in record[4: featureEnd]] 会 自 第 4 字段 到 featureEnd 字 
段 ， 执 行 convert_float 函数 ， 转 换 为 float。 

(3) 以 上 featureEnd 是 参数 ， 调 用 extract_features 时 会 传 入 参数 len(r) - 1， 也 就 是 倒 
数 第 2 个 字段 。 

(4) 将 转换 后 的 结果 存 入 numericalFeatures 并 返回 。 


13.6.5 “返回 特征 字段 


经 过 上 列 处 理 后 会 产生 numericalFeatures 与 categoryFeatures ， 我 们 可 以 使 用 
np.concatenate 将 List 相 加 并 返回 。 


13.6.6 ”提取 label 标签 字段 
下 面 编 写 extract label 函数 ， 提 取 label 字段 。 


In [16]: def extract label(field): 
label= field[-1] 
return float(label) 


以 上 函数 传 入 field 参数 是 单项 数据 ，field[-1] 获取 最 后 一 个 字段 ， 也 就 是 label 字段 ， 
最 后 返回 float(label) 转换 为 float 之 后 的 label。 
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13.6.7 ”建立 训练 评估 所 需 的 数据 


后 续 进 行 Decision Tree 的 训练 必须 提供 LabeledPoint 格式 的 数据 ， 所 以 我 们 必须 先 建 
立 LabeledPoint 数据 。 


人 DI01 创建 LabeledPoint 数据 


LabeledPoint 是 由 label 与 feature 组 成 的 。 之 前 的 步骤 我 们 已 编写 了 extract_label0 与 
extract_features() 函数 ， 接 下 来 我 们 要 使 用 这 两 个 函数 建立 训练 评估 所 需 的 LabeledPoint 。 


In [50]: from pyspark.milib.regression Import LabeledPoint 
labelpolntRDD = lines.map( lambda r: 
LabeledPoint( 
extract_label(r), 
extract_features(r,categorlesMap,len(r) - 1))) 


以 上 程序 代码 的 详细 说 明 如 表 13-6 所 示 。 
表 13-6 “程序 代码 说 明 
程序 代码 说 明 


from pyspark.mllib.regression import LabeledPoint | 导入 LabeledPoint 模块 


针对 lines 每 一 项 数据 转换 ， 并 以 匿名 函数 传 入 参数 r， 转 
换 后 将 结果 存 入 labelpointRDD 


LabeledPoint( 建立 LabeledPoint 数据 


labelpointRDD = lines.map(lambda r: 


extract_features 提取 特征 字段 ， 传 入 参数 : 
extract_features(r, categoriesMap, len(r)— 1 。r: 传 入 的 每 一 项 数据 
) *，categoriesMap: 网 页 分 类 字典 

。，featureEnd: 设置 为 len(r) - 1， 因 为 最 后 一 个 字段 是 label 


CTO2 查看 第 一 项 未 处 理 前 教 据 
我 们 可 以 查看 lines 第 一 项 未 处 理 前 的 数据 ， 如 图 13-34 所 示 。 


分 类 特征 字段 business 


有 


In [82]: print lines.flrst0353 
u"9.789131'，u'2.955555556'，u'9.676479588'，u"9.295882353'，u'9.9479588 


24', u" 823529412，…， uy" 443783175'，Uu'"9'，U"9'，0'9.99977381'，Uu'"9'，0U"9.245831182 
由 "9.9938 把 区 二 1°, u'1’, 24'，U 9 U'5424, Uy'170', u'8', Uy'0.152941176', uy'0.867 


9129575" 
bal 是 0 是 0 


图 13-34 查看 第 一 项 未 处 理 前 的 数据 
以 上 执行 结果 ， 我 们 是 读 取 [3:]， 即 读 取 自 第 3 字段 之 后 的 数据 ， 第 一 个 字段 是 分 类 特 
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征 字段 business， 其 余 字段 是 数值 特征 字段 ， 最 后 是 label。 
人 ED3 查看 LabelPoint 第 一 项 数据 


lines 数据 经 过 extract_label 与 extract features 处 理 后 产生 LabeledPoint。 我 们 可 以 查看 
LabeledPoint 第 一 项 数据 ， 如 图 13-35 所 示 。 


分 类 特征 字段 business 转换 为 14 个 数值 


9.789131, 2. 09555555561 [TEE [8 EEEEEEEEE [8 人 70556554 [ 332011 [EE 7 


3175,9.9,9.9,9.99977381, 96.9,9.245831182, 96.993883495,1.9,1.9,24.9,9.9,5424.9, 
176.9,8.9,9.152941176,9.979129575])] 


其 余 是 数值 特征 字 


13-35 ”查看 LabeledPoint 第 一 项 数据 


我 们 可 以 看 到 最 前 面 的 数字 是 label， 然 后 是 分 类 特征 字段 转换 为 14 个 数值 字段 ， 其 余 


13.6.8 以 随机 方式 将 数据 分 为 3 部 分 并 返回 


将 之 前 所 建立 的 RDD[LabeledPoint 数据 以 randomSplit 随机 方式 按照 8:1:1 的 比例 分 
隔 为 3 部 分 : trainData〈 训 练 数 据 )、validationData 〈 验 证 数据 )、testData〈 测 试 数据 )， 然 后 
用 print 显示 trainData、validationData、testData 项 数 ， 如 图 13-36 所 示 。 


In [119]: (trainData, validationData, testData) = labelpointRDD.randomSplit([8, 1, 1]) 
print(" 梅 数据 分 trainData:" + str(trainData.count()) + 
" validationData:" + str(validationData.count()) + 
”testData:" + str(testData.count())) 


图 13-36 以 随机 方式 将 数据 分 为 3 部 分 


13.6.9 编写 PrepareData(sc) 函数 


为 了 方便 后 续 进 行 数据 处 理 ， 我 们 将 之 前 步骤 中 数据 处 理 的 命令 全 部 收集 在 
PrepareData(sc) 函数 中 。 


人 1 编写 PrepareData(sc) 函数 ( 见 图 13-37 ) 
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In [204]: def PrepareData(sc): 
关 一 一 一 一 一 7 导入 才 和 区 类 的 -一 一 一 
global Path 
if sc.master[0:5]=="local" : 
Path="file:/home/hduser/pythonwork/PythonProject/” 
else: 
Path="hdfs://master:9000/user/hduser/” 


print(" 开始 导入 数据 …") 

rawDataWithHeader = sc.textFile(Path+"data/train.tsv") 

header =rawDataWithHeader.first() 

rawData = rawDataWithHeader.filter(lambda x:x !=header) 

rData=rawData.map(lambda x: x.replace(™\"™", "")) 

lines =rData.map lambda x: x.split("\t") 

print(" 共 计 ; "+ str(lines.count()) + "项 ") 

天 一 一 一 乙 建 习 V 缮 汪 扣 所 需 闪 扬 RDD[LabeledPoint]. 

categoriesMap = lines.map(lambda fields: fields[3]). \ 

distinct().zipWithIndex().collectAsMap() 

labelpointRDD = lines.map( lambda r:LabeledPoint( 
extract_label(r), 
extract_features(r,categoriesMap ,-1) 
) 

尖 一 一 一 一 一 了 以 届 轴 方式 侍 灌 所 分 为 3 个 部 分 并 次 可 

(trainData, validationData, testData) = labelpointRDD.randomSplit([8, 1, 1]) 

Print(" 将 数据 分 trainData:" + str(trainData.count()) + 

”walidationData:" + str(validationData.count()) + 
" testData:" + str(testData.count())) 
return (trainData, validationData, testData, categoriesMap) #5 所 


图 13-37 编写 PrepareData(sc) 函 数 


人 2 执行 PrepareData(sc) 函数 


执行 PrepareData(sc) 函数 ， 如 图 13-38 所 示 。 


In [159]: (trainData, validationData, testData, categoriesMap) =PrepareData(sc) 


共计 : 7395 项 
将 数据 分 trainData:5893 validationData:744 testData:758 


图 13-38 ”执行 PrepareData(sc) 函数 
人 63 将 数据 暂 存 在 内 存 中 
为 了 加 快 后 续 程序 的 运行 效率 ， 以 下 列 程序 代码 将 trainData、validationData 暂 存在 内 存 中 : 


In [19]: trainData.persist() 
validationData.persist() 
testData.persist() 


Out[19]: PythonRDD[33] at RDD at PythonRDD.scala:48 


如何 训 纺 模型 


建立 训练 所 需 的 数据 格式 LabeledPoint 后 建立 trainData， 我 们 将 使 用 trainData 执 行 
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DecisionTree 训练 并 建立 模型 。 
执行 DecisionTree 训练 的 程序 代码 如 下 : 


In [20]: from pyspark.mllib.tree Import DecisionTree 
model=DecisionTree.trainClassifier( \ 
trainData, numClasses=2, categoricalFeaturesInfo={}, \ 
Impurity="entropy" maxDepth=5, maxBins=5) 


上 述 程 序 代 码 首 先导 入 DecisionTree 模块 ， 然 后 执行 DecisionTree.trainClassifier 进行 训 
练 。 各 模块 介绍 如 表 13-7 所 示 。 


DecisionTree.trainClassifier(input, numClasses, categoricalFeaturesInfo, impurity, maxDepth, maxBins) 


返回 : DecisionTreeModel。 
表 13-7 参数 说 阴 


参数 说 明 
输入 的 训练 数据 
jg | 


其 中 ，categoricalFeaturesInfo 参数 是 设置 分 类 特征 字段 的 信息 ， 在 本 范例 中 采用 
OneHotEncoding 转换 分 类 特征 字段 ， 所 以 设置 为 空 的 dict {}。 


本 如 何 使 用 模型 进行 预测 


建立 DecisionTree 模型 后 ， 我 们 可 以 使 用 此 模型 预测 test.tsv 数据 。test.tsv 只 有 feature 
(特征 字段 )， 我 们 将 使 用 此 特征 字段 预测 网 页 是 暂时 性 的 (ephemeral ) 或 是 长 青 的 
(evergreen)。 程 序 流程 示意 图 如 图 13-39 所 示 。 


13-39 ”程序 流程 示意 图 
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C301 定义 PredictData 函数 进行 预测 


定义 PredictData 函数 ， 如 图 13-40 所 示 。 


In [208]: def PredictData(sc,model,categoriesMap): 
print(" 开始 导入 数据 .…") 
rawDataWithHeader = sc.textFile(Path+"data/test.tsv") 
header = rawDataWithHeader.first() 
rawData = rawDataWithHeader.filter(lambda x:x I!=header) 
rData=rawData.map(lambda x: x.replace(™\"", "")) 
lines = rData.map(lambda x: x.split(™\t")) 
print(" 共 计 : "+ str(lines.count()) + "项 ") 
dataRDD = lines.map(lambdar: (r[0] ， 
extract_features(r,categoriesMap,len(r)))) 
DescDict ={ 
0: "暂时 性 网 页 (ephemeral)”， 
1: "长 青 网 页 (evergreen)” 
} 
for data In dataRDD.take(10): 
predictResult = modelpredict(data[1]) 
print " 网 址 : “+str(data[0])+"\n" +\ 
旧 ==> 预 测 :"+ str(predictResult)+ \ 
"说 明 :"+DescDict[predictResult] +"\n" 


图 13-40 定义 PredictData 函数 
以 上 程序 代码 与 第 13.6.9 小 节 的 PrepareDate() 类 似 。 下 面 仅 说 明 差异 之 处 。 


> 定义 PredictData 圾 数 


程序 代码 
def PredictData( 定义 PredictData 函数 ， 传 入 参数 : 


Sc, » sc: SparkContext 
model, * model: 之 前 训练 完成 的 模型 
categoriesMap): ，categoriesMap: 之 前 建立 的 网 页 分 类 字典 


> 编写 dataRDD 
因为 我 们 希望 能 显示 网 页 网 址 与 预测 网 页 的 结果 ， 所 以 编写 dataRDD 由 网 页 网 址 与 特征 
字段 组 成 。 


程序 代码 
dataRDD = lines.map(lambda r: 编写 dataRDD 


(Cr[0] ， "第 0 个 字段 : r[0] 也 是 网 址 
extract_features(r, "第 1 个 字段 : extract features 提取 特征 字段 ， 在 此 我 
categoriesMap,len(T) ))) 们 传 入 参数 r、categoriesMap 与 len(r) 


以 上 我 们 传 入 参数 len(r) 而 不 是 len(r)-1， 这 是 因为 testtsv 只 有 feature 字段 ， 没 有 
label 字段 ， 所 以 传 入 参数 len(r)， 读 取 到 最 后 字段 。 


> 使 用 dataRDD 进行 预测 并 显示 结果 
之 前 步骤 产生 的 dataRDD 第 0 个 字段 是 网 址 、 第 1 个 字段 是 所 有 特征 字段 ， 用 于 显示 
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网 址 与 预测 结果 。 


程序 代码 
DescDict = { 


0: " 暂时 性 网 页 (ephemeral)"， 原本 label 的 值 是 0, 1, 后 续 我 们 希望 能 在 程序 中 显 


示 0 和 1 所 代表 的 意义 所 以 我 们 建立 DescDict 字 


人 典 ， 后 续 可 用 此 字 奥 转 换 预测 结果 


for data in dataRDD.take(10): 读 取 前 10 项 数据 


predictResult = 使 用 model.predict 进行 预测 ， 传 入 data[1] 也 就 是 
model.predict(data[1]) feature 特征 字段 。 预 测 结果 存 入 predictResult 


print " 网址 : "+ str(data[0]) 显示 data[0] 网 址 


"说明 :" +DescDict[predictResult] 使 用 DescDict 字典 转换 预测 结果 说 明 


本 D02 定义 PredictData 函数 进行 预测 


编写 PredictData 函数 后 ， 我 们 就 用 此 函数 进行 预测 。 下 面 执行 PredictData 传 入 sc， 
model, categoriesMap 进行 预测 ， 如 图 13-41 所 示 。 


In [22]: print( 
PredictData(sc, model, categoriesMap) 


13-41 定义 PredictData 函数 进行 预测 
预测 结果 如 图 13-42 所 示 。 


enchilada-sauce. ht 


==- 现 刘 :1.9 说 明 : 长 青 网 页 (evergreen) 人 


网 址 : http://lolpics.se/18552-stun-grenade-ar 2. 预测 结果 
==> 预 出 :6.9 说 明 : 暂时 性 网 页 (ephemeral) 
网 址 : http://www.xcelerationfitness.com/treadmills.html 
==> 预 刘 :9.9 说明 : 暂时 性 网 页 (ephemeral) 
网 址 : ”http://www.bloomberg.com/news/2912-92-96/syria-s-assad-deploys-tactics-of 
father-to-cr -threatening-reign.html 
==> 预 刘 :9.9 说 明 : 暂时 性 网 页 (ephemeral) 
图 13-42 ”预测 结果 


从 图 13-42 可 以 看 到 网 页 网 址 与 预测 的 结果 ， 我 们 也 可 以 单 击 选中 网 址 ， 查 看 一 下 预测 结 
果 是 否 合理 。 不 过 我 们 不 太 可 能 用 人 来 判断 决策 树 模 型 的 准确 率 ,必须 有 一 个 科学 的 方法 评估 
模型 的 准确 率 ， 后 续 章 节 会 介绍 。 
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本 如何 评估 模型 的 准确 素 


有 了 模型 之 后 ,我 们 希望 知道 这 个 模型 预测 的 准确 率 ， 必 须要 有 一 个 标准 来 评估 模型 的 准 
确 率 。 


13.9.1 使 用 AUC 评估 二 元 分 类 模型 
针对 二 元 分 类 算法 ， 主 要 是 以 AUC (Area under the Curve of ROC) 来 评估 数据 模型 的 好 


坏 。 
Actual 真实 值 


Predict True Positives (TP) False Positives (FP) 
预测 值 False Negatives (FN) True Negatives (TN) 


例如 : 


0 代表 暂时 性 网 页 。 

1 代表 长 青 网 页 。 

真 阳 性 True Positives (TP ) : 预测 为 1， 实 际 上 为 1。 

伪 阳 性 False Positives (FP ) : 预测 为 1， 实 际 上 为 0。 

真 阴 性 True Negatives (TN ) : 预测 为 0， 实际 上 为 1。 

伪 阴 性 False Negatives (FN ) : 预测 为 0， 实际 上 为 0。 
TPR: 在 所 有 实际 为 1 的 样本 中 被 正确 地 判断 为 1 的 比例 。 
TPR=TP/(TP+FN) 

@ FPR: 在 所 有 实际 为 0 的 样本 中 被 错误 地 判断 为 1 的 比例 。 
FPR=FP/(FP+TN) 


有 了 TPR、FPR 就 可 以 绘 出 ROC 曲线 图 , 如 图 13-43 所 示 。AUC (Area under the Curve of 
ROC) 就 是 ROC 曲线 下 的 面积 。 
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FPR 
13-43 ”ROC 曲线 图 
可 从 AUC 判断 二 元 分 类 的 优先 ， 如 表 13-8 所 示 。 
表 13.8 从 AUC 判断 二 元 分 类 的 优 作 
条 件 说 明 
最 完美 的 情况 ， 预 测 准确 率 100%， 但 是 不 可 能 存在 


优 于 随机 猜测 ， 具 有 预测 价值 


与 随机 猜测 一 样 ， 没 有 预测 价值 
比 随机 猜测 还 差 ， 但 如 果 反 向 预测 ， 就 优 于 随机 猜测 


13.9.2 计算 AUC 


以 上 说 明 已 经 了 解 AUC 的 概念 ， 接 下 来 要 在 程序 中 使 用 AUC 评估 二 元 分 类 模型 的 好 
坏 。 计 算 AUC 有 些 复杂 ， 不 过 不 用 担心 ，MLlib 已 经 有 了 这 个 功能 。MLlib 提供 了 使 用 
BinaryClassificationMetrics 计算 AUC 的 方法 ， 计 算 的 步骤 如 下 : 

(1) 建立 scoreAndLabels。 

(2) 使 用 scoreAndLabels 建立 BinaryClassificationMetrics， 并 使 用 BinaryClassification 
Metrics。 


和 Flo1 创建 scoreAndLabels 


建立 scoreAndLabels， 如 图 13-44 所 示 。 从 执行 结果 中 我 们 可 以 看 到 显示 了 5 项 数据 ， 
每 一 项 都 是 由 score 与 label 组 成 的 。 
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In [21]: score = model.predict(validationData.map(lambda p: p.features)) 
scoreAndLabels=score .zip(validationData.map(lambda p: p.label)) 
scoreAndLabels.take(5) 


Out[21]: (1.0, 1.0) (0.0, 0.0) (0.0, 1.0)] 
13-44 建立 scoreAndLabels 
以 上 程序 代码 的 说 明 如 下 : 


(1) 使 用 model.predict 进行 预测 ， 传 入 参数 validationData.map(lambda p: p.features)， 
也 就 是 validationData 的 features 部 分 进行 预测 ， 预 测 结 果 存 在 score 中 。 

(2) 建立 scoreAndLabels: score〈 预 测 的 结果 ) 使 用 .zip 方法 结合 。validationData.map 
(lambda p: p.label) 验 证 数据 的 label 标签 字段 。 

(3) scoreAndLabels.take(5) 显示 前 5 项 数据 。 


人 2 编写 BinaryClassificationMetrics 计算 AUC 


使 用 BinaryClassificationMetrics 计算 AUC。 


In [25]: from pyspark.mllib.evaluation Import BinaryClassificationMetrics 
metrics = BinaryClassificationMetrics(scoreAndLabels) 
print "AUC="+str(metrics.areaUnderROC) 


AUC=6.656874996538 


程序 详细 说 明 如 下 : 

(1) 导入 BinaryClassificationMetrics 模块 。 

(2) 使 用 BinaryClassificationMetrics 传 入 参数 scoreAndLabels 建立 二 元 分 类 metrics。 
(3) 有 了 metrics， 我 们 可 以 用 areaUnderROC 方法 计算 AUC。 


人 03 编写 evaluateModel 函数 


因为 后 续 我 们 评估 模型 的 机 会 很 多 , 所 以 现在 编写 evaluateModel 函数 ， 以 方便 我 们 后 续 
重复 使 用 它 来 评估 模型 。 


In [24]: def evaluateModel(model, validationData): 
score = model.predict(validationData.map(lambda p: p.features)) 
scoreAndLabels=score.zip(validationData.map(lam bda p: p.label)) 
metrics = BinaryClassificationMetrics(scoreAndLabels) 
AUC=metrics.areaUnderROC 
return( AUC) 


以 上 使 用 def evaluateModel(model，validationData) 定义 函数 ， 传 入 参数 训练 完成 的 
model 模型 与 validationData 验证 数据 ， 可 以 帮助 我 们 计算 AUC 。 
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人 4 执行 evaluateModel 函数 


以 下 程序 代码 执行 evaluateModel 函数 , 输入 已 训练 完成 的 model 模型 与 validationData 
验证 数据 ， 执 行 结果 AUC 大 约 为 0.65。 


In [26]: AUC=evaluateModel(model, validationData) 
print "AUC="+str(AUC) 


AUC=6.656874996538 


模型 的 训练 参数 如 何 影响 准确 率 


在 训练 模型 时 我 们 会 输入 不 同 的 参数 。 其 中 ，DecisionTree 参数 impurity、maxDepth、 
maxBins 的 值 会 影响 准确 率 以 及 训练 所 需 的 时 间 。 我 们 将 以 图 表 显 示 这 些 参数 值 、 准 确 率 与 训 
练 所 需 的 时 间 。 

我 们 每 次 只 会 评估 单个 参数 的 不 同 数值 ， 例 如 评估 maxDepth 参数 的 不 同 数值 [3, 5, 10， 
15, 20, 25] ， 执 行 的 步骤 如 下 


(1) 用 DecisionTree.trainClassifier 进行 训练 传 入 trainData 与 单个 参数 的 不 同 数值 。 

(2) 建立 模型 后 ， 用 validationData 评估 模型 的 AUC 准确 率 。 

(3) 训练 与 评估 模型 重复 执行 多 次 ， 产生 多 项 的 AUC 与 运行 时 间 ， 并 存储 于 metrics 
RDD 中 。 

(4) 全 部 执行 完成 后 ， 将 metrics RDD 转换 为 Pandas DataFrame。 

(5) Pandas DataFrame 可 绘制 AUC 与 运行 时 间 图 表 ， 用 于 显示 不 同 参数 的 准确 率 与 执 
行 时 间 的 关系 。 


处 理 流程 的 示意 图 如 图 13-45 所 示 。 


Pandas 
DataFrame 


Data 


13-45 ”处 理 流程 的 示意 图 


13.10.1 建立 trainEvaluateModel 
我 们 将 通过 一 个 函数 来 建立 trainEvaluateModel， 其 中 包含 训练 与 评估 的 功能 ， 并 且 计 算 
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训练 评估 所 需 的 时 间 。 
人 JI01 建立 trainEvaluateModel 


编写 trainEvaluateModel 函数 ， 如 图 13-46 所 示 。 


In [41]: from time import time 
def trainEvaluateModel(trainData,validationData, 
impurityParm, maxDepthParm, maxBinsParm): 
startTime = time() 
model = DecisionTree.trainClassifier(trainData, 
numClasses=2, categoricalFeaturesInfo={}, impurity=impurityParm, 
maxDepth=maxDepthParm, maxBins=maxBinsParm) 
AUC = evaluateModel(model, validationData) 
duratiol ime() - startTime 
Print “训练 评估 : 使 用 参数 "+ \ 
" impurity="+str(impurityParm) +\ 
" maxDepth="+str(maxDepthParm) + \ 
" maxBins="+str(maxBinsParm) +"\n" +\ 
"==> 所 需 时 间 ="+str(duration) + \、 
"结果 AUC= "+ str(AUC) 
return (AUC,duration, impurityParm, maxDepthParm, maxBinsParm,model) 


图 13-46 编写 trainEvaluateModel 函数 


以 上 程序 代码 说 明 如 表 13-9 所 示 。 
表 13-9 trainEvaluateModel 程序 代码 说 明 
旨 令 详细 说 明 
导入 time 模块， 计算 训练 评估 所 需 的 时 间 


ee 定义 trainEvaluateModel 函数 ， 传 入 下 列 参数 : 
oo lh "trainData: 训练 时 使 用 
” *validationData;， 验证 数据 


impurityParm, ，DecisionTree: 训练 时 所 需要 的 参数 ， 即 impurity、maxDepth、 
maxDepthParm, maxBins 


maxBinsParm): 


model = DecisionTree.trainClassifier( ”| 使 用 DecisionTree.trainClassifier 进行 训练 , 返回 model, 传 入 参数 : 
trainData, 。trainData 训练 数据 

numClasses=2, * numClasses=2 是 二 元 分 类 

categoricalFeaturesInfo={}, * categoricalFeaturesInfo 空 dict 

impurity=impurityParm, *Impurity 参数 

maxDepth=maxDepthParm, * maxDepth 决策 树 最 大 深度 参数 

maxBins=maxBinsParm) *maxBins 决策 树 节点 最 大 分 支 数 目 参数 


AUC = evaluateModel 使 用 evaluateModel 进行 训练 评估 模型 , 传 入 参数 : model 模型 与 
(model, validationData) validationData 验证 数据 ， 返 回 AUC 


计算 所 需 的 时 间 


print ”训练 评估 : 使 用 参数 " 


return (AUC,duration 
impurityParm, maxDepthParm, 返回 AUC、 运 行 所 需 的 时 间 ， 训 练 参数 ， 训 练 完成 后 的 模型 


maxBinsParm,model) 
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人 2 运行 trainEvaluateModel 


可 以 使 用 下 列 指 令 ， 运 行 trainEvaluateModel， 传 入 下 列 参数 〈 见 图 13-47): 


In [30]: (AUC, duration, ImpurityParm, maxDepthParm, maxBinsParm,model}= \ 
trainEvaluate Model(trainData, validationData, "entropy" 5, 5) 


训练 评估 : 使 用 参数 impurity=entropy maxDepth=5 maxBins=5 
==> 所 需 时 间 =3 .99249997491 结果 AUC = 96.656874996538 


13-47 运行 trainEvaluateModel 


以 上 运行 结果 ， 显 示 训 练 评估 模型 ， 所 使 用 的 参数 以 及 运行 所 需 的 时 间 ， 最 后 为 AUC 评 


号 


13.10.2 评估 impurity 参数 
人 ER1) 运行 trainEvaluateModel 评估 impurity 参数 


我 们 要 评估 impurity 参数 的 程序 代码 如 图 13-48 所 示 。 其 中 ，for 语句 会 重复 运行 
trainEvaluateModel ， 传 入 参数 impurityList 有 2 个 不 同 值 ["gini"， "entropy"]， 固 定 
maxDepthList=[10]、maxBinsList= [10]， 最 后 把 运行 结果 存 入 metrics。 


In [32]: ImpurltyList=["glni" "entropy"] 
maxDepthList =[10] 
maxBInsList=[10 ] 


metrlcs = [trainEvaluate Model(tralnData, valldationData, 
Impurity,maxDepth, maxBIns ) 
for Impurlty In ImpurltyList 
for maxDepth In maxDepthList 
for maxBlns In maxBlnsList ] 


训练 评估 : 使 用 参数 Impurity=gini maxDepth=19 maxBins=19 
==> 所 需 时 间 =3.41789996323 结果 AUC = 69.615456238361 

训练 评估 : 使 用 参数 impurity=entropy maxDepth=19 maxBins=19 
==> 所 需 时 间 =2.99922299385 结果 AUC = 9.661929334287 


图 13-48 ”运行 trainEvaluateModel 评估 impurity 参数 


trainEvaluateModel 会 执行 两 次 ， 我 们 可 以 看 到 impurity =["entropy"]， maxdepth=[10]、 
maxBins= [10] 具有 较 高 的 AUC。 后 续 将 以 图 表 来 显示 ， 那 样 比较 容易 看 出 它们 之 间 的 关系 。 


人 2 查看 metrics 
上 一 步骤 的 运行 结果 存放 到 了 metrics 中 。metrics 的 内 容 如 图 13-49 所 示 。 
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In [33]: metrics 


第 1 项 是 参数 impurity = 
["gini"], maxdepth = [10]、 
maxBins = [10] 的 运行 结果 


Out[33]: | (0.6713135530043239, 
3.9740288257598877, 


to 6602959986816601, 


2.8627259731292725, 
‘entropy’, 

10, 

10, 


DeclslonTreeModel classifier of depth 10 with 589 nodes)] 


第 2 项 是 参数 impurity = 
["entropy"], maxdepth=[10]、 
maxBins= [10] 的 运行 结果 


13-49 查看 metrics 
13.10.3 ”训练 评估 的 结果 以 图 表 显示 


后 续 要 将 训练 评估 的 结果 以 图 表 显 示 ， 所 以 我 们 要 将 metrics 转换 为 Pandas DataFrame， 
并 用 Pandas DataFrame 绘图 。 


人 ED) 将 metrics 转换 为 Pandas DataFrame 


在 IPython Notebook 输入 如 图 13-50 所 示 的 命令 ， 将 metrics 转换 为 Pandas DataFrame。 


In [34]: Import pandas as pd 
IndexList=ImpurityList 
df = pd.DataFrame(metrics,index=IndexList, 
columns=[AUC', 'duration','Impurity', 'maxDepth', 'maxBins','model") 


DecisionTreeModel classifier 
of depth 10 with .. 
DecisionTreeModel classifier 


DataFrame 的 索引 ， 


也 就 是 impurityList 


图 13-50 ”将 metrics 转换 为 Pandas DataFrame 


以 上 运行 结果 显示 Pandas DataFrame 。 程 序 代 码 说 明 如 表 13-10 所 示 。 


表 13-10 ”程序 代码 说 明 
说 明 


import pandas as pd 导入 pandas 模块 


IndexList=impurityList 设置 IndexList 为 impurityList 
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( 续 表 ) 


df = pd.DataFrame( 


metrics, 使 用 pd.DataFrame 方法 转换 为 pandas Data Frame， 并 输入 下 列 参数 : 
index=IndexList, 。 metrics 是 要 转换 的 List 


columns=[ AUC','duration' 。 index 设置 pandas dataframe 的 索引 
,impurity','maxDepth', 。 columns 设置 pandas dataframe 的 字段 
maxBins',model]) 


df 查看 pandas data frame 


人 2 编写 showchart() 函数 


之 前 建立 的 pandas Data Frame 可 以 使 用 Matplotlib 绘图 ， 我 们 将 编写 showchart() 函数 
来 显示 图 表 。 


In [42]: Import matplotllb.pyplot as plt 
def showchart(df,evalparm ,barData, lineData,yMin,yMax): 
ax = df[barData].plot(kind='bar', title =evalparm, 
figsize=(10,6),legend=True, fontslze=12) 
ax.set_xlabel(evalparm,fontslze=12) 
ax.set_ylim([yMin,yMax]) 
ax.set_ylabel(barData,fontslze=12) 
ax2 = ax.twinx() 
ax2.plot(dfllineData ].values, linestyle="-", marker='0', 
linewldth=2.0,color=r) 
plt.show() 


上 列 程序 代码 说 明 如 下 : 
> 导入 模块 并 定义 哨 数 
指令 说 明 


Ne 定义 showchart 函数 ， 传 和 参数: 


"df 就 是 之 前 metrics 产生 的 dataframe 


evalparm, 


Dana "evalparm 是 此 次 评估 的 参数 


上 "barData 绘 出 barchart 数据 
Min : "lineData 绘 出 linechart 数据 ， 在 此 是 duration 
Wi “ yMinyMax 是 y 轴 的 打印 区 域 
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> 绘制 直方 图 


ax =df[barData].plot( 以 dataframe 的 barData 字段 进行 绘图 
kind='bar', 图 形 是 bar chart 

title=evalparm, 设置 显示 在 x 轴 evalparm 参数 
figsize=(10,6), 设置 图 形 的 宽 与 高 


legend=True, 设置 显示 图 标 
fontsize=12) 设置 字号 


设置 图 形 x 轴 是 evalparm 参数 ， 并 设置 字号 
设置 图 形 y 轴 是 barData 参数 
ax.set_ylim([yMin,yMax]) 设置 y 轴 的 打印 区 域 


> 绘制 折线 图 
旧 令 说 明 
于 另外 一 人 图形 


ax2.plot( 以 ax2 绘图 
dfflineData].values, 以 dataframe 的 duration( 运 行 时 间 ) 字段 进行 绘图 


linestyle="-", Line chart 样式 
marker='0', Line chart 数值 点 是 圆 形 
linewidth=2.0, Line 的 宽度 

color="Tr'") Line 的 颜色 


开始 给 图 


D03 运行 showchart() 函数 
接 下 来 ， 我 们 可 以 运行 showchart() 函数 ， 传 入 参数 : 


传 入 df 参数 就 是 之 前 metrics 产生 的 dataframe。 
evalparm 当前 评估 的 参数 : 传 入 impurity。 

barData 绘 出 barchart 数据 : 传 入 AUC。 

lineData 绘 出 linechart 数据 : 传 入 duration 运行 时 间 。 
yMin, yMax 是 进行 绘图 的 》 轴 范围 : 传 入 0.5, 0.7。 


In [35]: showchart(df,impurity',AUC','duration',0.5,0.7 ) 


运行 后 会 打开 如 图 13-51 所 示 的 绘图 窗口 。 
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图 13-51 打开 绘图 窗口 
直方 图 代表 AUC,、 折线 图 代表 运行 时 间 。 从 图 13-51 可 以 看 到 entropy 准确 度 比 gini 好 
- 些 ， 但 是 并 没有 很 大 的 差别 ， 而 且 运行 时 间 entropy 所 需 的 时 间 比 gini 少 ， 所 以 针对 这 个 
数据 集 ， 选 择 entropy 参数 是 不 错 的 选择 。 


13.10.4 编写 evalParameter 


之 前 步骤 我 们 评估 'impurity 参数， 并 且 绘 出 参数 值 对 准确 率 的 影响 以 及 训练 所 需 的 时 
间 。 后 续 我 们 还 需要 评估 "maxDepth' 与 "maxBins' 参数 ， 所 以 我 们 编写 evalParameter 函数 
〈 见 图 13-52)， 可 以 用 来 评估 不 同 参数 。 


In []: 类 人 苇 久 eva/Parameter 名 并 
def evalParameter(trainData, validationData, evalparm, 
impurityList, maxDepthList, maxBinsList): 
#NIFE 
metrics = [trainEvaluateModel(trainData, validationData, 
impurity,maxDepth, maxBins ) 
for impurity in impurityList 
for maxDepth in maxDepthList 
for maxBins In maxBinsList ] 
# 设 十 当 WFISPIERN ' 
If evalparm=="impurity": 
IndexList=impurityList[:] 
ellf evalparm=="maxDepth": 
IndexList=maxDepthList[:] 
ellf evalparm=="maxBins": 
IndexList=maxBinsList[:] 
玫 凑 这 为 Pandas DataFrame 
df = pd.DataFrame(metrics,index=IndexList, 
columns=[AUC', 'duration' impurity’, "maxDepth，maxBinsmodel]) 
# 人 AV 
showchart(df,impurity’,AUC','duration',0.5,0.7 ) 


图 13-52 编写 evalParameter 函数 


13.10.5 使 用 evalParameter 评估 maxDepth 参数 


当 我 们 要 评估 maxDepth 参数 时 ， 固 定 impurityList =["gini"]、maxBinsList=[10]， 但 是 
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maxDepthList=[3, 5, 10, 15, 20, 25]， 传 入 maxdepthArray 值 来 评估 哪 一 个 参数 具有 比较 好 的 
准确 率 (也 就 是 AUC 值 比较 高 )。 


In [*]: evalParameter(trainData, validationData,"maxDepth", 
ImpurityList=["gini"], 
maxDepthList=[3, 5, 10, 15, 20, 25], 
maxBinsList=[10]) 


运行 后 结果 如 图 13-53 所 示 ， 并 且 会 打开 如 图 13-54 所 示 的 绘图 窗口 。 


训练 评估 : 使 用 参数 impurity=gini maxDepth=3 maxBins=19 
==> 所 需 时 间 =2.38977593777 结果 AUC = 9.591339941242 
训练 评估 : 使 用 参数 impurity=gini maxDepth=5 maxBins=19 
==> 所 需 时 间 =2 .39682897568 结果 AUC = 9.642959144585 
训练 评估 : 使 用 参数 impurity=gini maxDepth=19 maxBins=19 
==> 所 需 时 间 =2 .52588891983 结果 AUC = 9.615456238361 
训练 评估 : 使 用 参数 impurity=gini maxDepth=15 maxBins=19 
==> 所 需 时 间 =2 .94989693424 结果 AUC = 9.61464247324 
训练 评估 : 使 用 参数 impurity=gini maxDepth=29 maxBins=19 
==> 所 需 时 间 =3 .969595867 结果 AUC = 6.598132593671 
训练 评估 : 使 用 参数 impurity=gini maxDepth=25 maxBins=19 
==> 所 需 时 间 =3.494777956992 结果 AUC = 9.595389842677 


图 13-53 评估 maxDepth 参数 


全 OO@ 二 特 本 


图 13-54 打开 绘图 窗口 
从 图 13-54 可 以 看 到 ，maxDepth=5，AUC 最 高 ，maxDepth 越 大 ， 所 需 时 间 越 多 ， 所 以 
maxDepth=5 可 能 是 不 错 的 选择 。 
13.10.6 使 用 evalParameter 评估 maxBins 参数 


当 我 们 要 评估 maxBins 时 ， 固 定 impurity=["gini"]、maxDepth= [10]， 但 是 maxBins 输入 
参数 有 6 个 不 同 值 [3, 5, 10, 50, 100, 200]， 用 来 评估 哪 一 个 参数 具有 比较 好 的 准确 率 一 也 
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就 是 AUC 值 比较 高 。 


In [*]: evalParameter trainData, validationData "maxBins"， 
impurityList=["gini"], 
maxDepthList =[10], 
maxBinsList=[3, 5, 10, 50, 100, 200] 


运行 后 结果 如 图 13-55 所 示 ， 同 时 会 打开 如 图 13-56 所 示 的 窗口 。 


训练 评估 : 使 用 参数 impurity=gini maxDepth=19 maxBins=3 
==> 所 需 时 间 =4.39378603935 结果 AUC = 9.627295574632 
训练 评估 : 使 用 参数 impurity=gini maxDepth=16 maxBins=5 
==> 所 需 时 间 =2.84377992716 结果 AUC = 9.65481219658 
训练 评估 : 使 用 参数 impurity=gini maxDepth=19 maxBins=19 
==> 所 需 时 间 =3 .62329683394 结果 AUC = 9.615456238361 
训练 评估 : 使 用 参数 impurity=gini maxDepth=16 maxBins=59 
==> 所 需 时 间 =3 .31911391613 结果 AUC = 9.644952385278 
训练 评估 : 使 用 参数 impurity=gini maxDepth=19 maxBins=169 
==> 所 需 时 间 =3 .19374299949 结果 AUC = 9.636863938472 
训练 评估 : 使 用 参数 impurity=gini maxDepth=19 maxBins=299 
==> 所 需 时 间 =3 .71896991663 结果 AUC = 6.641386958562 


13-55 评估 maxBins 参数 


070 maxBins 3 
mm AUC 

068 4.2 
066 六 
064 i 
2 ae 

062 
3 

060 
32 

058 
ao 

056 
z8 

s a 3 上 8 
maxBins 


图 13-56 打开 绘图 窗口 


从 图 13-56 可 以 看 到 ，maxBins=5 时 AUC 最 高 ，maxBins 越 大 ， 所 需 时 间 越 多 ， 所 以 
maxBins=5 可 能 是 不 错 的 选择 。 


如 何 找 出 准确 率 最 高 的 参数 组 合 


之 前 的 章节 我 们 对 各 个 参数 进行 评估 ， 了 解 每 一 个 参数 值 对 AUC 与 运行 时 间 的 关系 。 
接 下 来 ， 我 们 将 所 有 参数 训练 评估 找 出 最 好 的 参数 组 合 。 
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执行 的 步骤 如 下 : 


(1) 执行 训练 DecisionTree.trainClassifier 传 入 trainData、 所 有 参数 组 合 。 
(2) 建立 模型 后 ， 以 validationData 评估 模型 的 AUC 准确 率 。 


(3) 训练 与 评估 模型 重复 执行 多 次 ， 产 生 多 项 的 AUC 与 运行 时 间 ， 并 存储 在 AUC 
metrics RDD 中 。 


(4) 全 部 执行 完成 后 AUC metrics 取出 AUC 最 大 的 参数 组 合 , 就 是 最 佳 模 型 bestModel。 
程序 流程 示意 图 如 图 13-57 所 示 。 


AUC 最 大 的 参数 组 合 


bestModel 
Data 最 佳 模 型 


图 13-57 程序 流程 示意 图 
人 Io01 编写 evalAllParameter 函数 


我 们 将 编写 evalAllParameter 函数 ， 所 有 参数 训练 评估 找 出 最 好 的 参数 组 合 ， 如 图 13-58 
所 示 。 


In [58]: - #EKevalAlParameterB 
def evalAllParameter(tralnData, valldationData, 
ImpurltyList maxDepthList, maxBlnsList): 
评估 诗 育 大 类 辣 合 


metrlcs = [tralnEvaluateModel(tralnData, valldationData, 
Impurity,maxDepth，maxBlns ) 
for impurity In ImpurityList 
for maxDepth In maxDepthList 
for maxBlns In maxBlnsList] 


Smetrics = sorted(metrics, key=lambda k: k[0], reverse=True) 

bestParameter=Smetrics[0] 

多 7 帮 载 辐 合 

Print(" 调 校 后 最 佳 参数 : Impurlty:" + str(bestParameter[2]) + 
"maxDepth:" + str(bestParameter[3]) + 
”maxBlns:" + str(bestParameter[4]) + 
"An， 结 果 AUC = "+ str(bestParameter[0])) 

六 E 回 属 圣 硬 型 

return bestParameter[5] 


13-58 ”编写 evalAllParameter 函数 
> 调用 evaluateAllParameter 上 蝴 数 的 方式 ( 见 图 13-59 ) 


In [59]: 


Print(" 一 -所 有 参数 训练 评估 找 出 最 好 的 参数 组 合 - 
bestModel=evalAllParameter(trainData, validationData, 
["gini" "entropy"], 
[3, 5, 10, 15, 20, 25), 
B, 5, 10, 50, 100, 200]) 


13-59 调用 evaluateAllParameter 函数 
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以 上 程序 代码 说 明 如 下 : 
# 社 evalAlParameter 人 SB 


@@ 传 入 参数 : trainData 训练 数据 、validationData 验证 数据 、impurityArray 参数 、 
maxDepthArray 参数 、maxBinsArray 参数 。 
@ 返回 DecisionTreeModel 模型 。 
##for 护 环 V| 颇 评 信 所 有 寺 效 徊 他 
@ 3 个 for 循环 读 取 List， 即 impurityList、maxDepthArray、maxBinsArray，3 个 List 
排列 组 合 ， 共 有 2*6*6=72 种 排列 组 合 ， 会 重复 执行 trainEvaluateModel 共 72 次 。 
@ ”产生 72 项 数据 的 List, 将 (AUC, duration, impurityParm, maxDepthParm, maxBinsParm, 
model) 所 组 成 的 List 存 入 metrics。 
六 上 续 4UC 才 起 外 雪 载 知人 司 


之 前 已 产生 72 种 排列 组 合 的 metrics， 所 以 我 们 希望 在 72 组 参数 组 合 中 找 出 AUC 中 
最 大 的 参数 组 合 。 所 以 我 们 使 用 下 列 指令 先 从 大 到 小 排序 , 然后 取出 第 1 组 数据 , 就 是 AUC 
最 大 的 1 组 数据 。 


® Smetrics= sorted(metrics, key=lambda k: k[0], reverse=True)， 进 行 从 大 到 小 排序 。 
@ bestParameter=Smetrics[0]， 获取 第 1 组 数据 ， 就 是 AUC 最 大 ， 也 就 是 最 佳 参 数组 合 。 


兹 E 右 插 储 棕 弄 
从 0 算 起 第 6 个 字段 是 训练 完成 的 最 佳 模型 ， 所 以 返回 bestParameter[5]。 
FT02 执行 evalAllParameter 函数 


执行 evalAllParameter 函数 ， 如 图 13-60 所 示 。 


In [59]: 。 “print(" 一 所 有 参数 训练 评估 找 出 最 好 的 参数 组 合 - ") 
bestModel=evalAllParameter(trainData, validationData, 
T"gini" "entropy"], 
[3, 5, 10, 15, 20, 25), 
[3, 5, 10, 50, 100, 200]) 


训练 评估 : 使 用 参数 impurity=entropy maxDepth=25 maxBins=168 
==> 所 需 时 间 = 4 .34751791355 结果 AUC = 9.619993777536 


训练 评估 : 使 用 参数 impurity=entropy maxDepth=25 maxBins=2689 
==> 所 需 时 间 =5.12797299587 结果 AUC = 6.645169557751 
调 校 后 最 佳 参数 


后 最 佳 参数 


图 13-60 ”执行 evalAllParameter 函数 
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以 上 执行 结果 会 显示 72 组 数据 我 们 仅 列 出 最 后 几 组 数据 最 后 会 显示 最 佳 的 参数 组 合 


区 如 何 确认 是 否 过 度 训练 


所 谓 过 度 训 练 (Overfitting)， 是 指 机 器 学 习 所 学 到 的 模型 过 度 贴近 trainData， 从 而 导致 
误差 变 得 很 大 。 为 了 确认 没有 Overfitting 〈 过 度 训 练 ) 问题 : 


@ 首先 ， 在 训练 评估 阶段 时 使 用 validationData 评估 模型 。 
@ ”然后 ， 在 测试 阶段 时 使 用 另外 一 组 数据 testData 测试 数据 后 再 测试 模型 。 


如 果 训 练 评估 阶段 时 AUC 很 高 , 但 是 测试 阶段 AUC 很 低 , 就 代表 可 能 有 overfitting 的 
问题 。 以 下 程序 代码 使 用 testData 进行 评估 : 


In [33]: AUC=evaluateModel(model, testData) 
print "AUC="+str(AUC) 


AUC=6.667698395358 


以 上 测试 结果 显示 AUC 大 约 为 0.66， 与 训练 阶段 差异 不 大 ， 代 表 没 有 overfitting 的 问题 。 


编写 RunDecisionTreeBinary.py 程序 


添加 RunDecisionTreeBinary.py( 见 图 13-61) 


cala IDE 


ythonproject/RunDecisionTreeBinary.py - 5' 
吓 " 国 同 龟 局 EE 有 "时 
歧 Package Explore 3 °° 0 Ds*RunDecisionTreeBinary SH 


"区 Pythonproject 
* Bdata 


Recommend.py 和 
B RecommendTrainpy 2. 文件 内 容 
1. 已 添加 的 RunDecisionTreeBinary.py 


Banpecionmel Ta 
图 13-61 添加 RunDecisionTreeBinary.py 


WordCount.py 
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开始 输入 RunDecisionTreeBinary.py 程序 


请 参考 本 书 范例 RunDecisionTreeBinarypy， 其 中 大 部 分 的 程序 代码 在 之 前 的 章节 都 已 经 
使 用 IPython Notebook 演练 过 了 ， 在 此 仅 说 明 main 主 程序 。 


输入 main 主 程序 
输入 main 主 程序 如 下 : 


main function 是 程序 运行 的 起 点 。main function 主要 分 为 4 个 步骤 ， 如 表 13-11 所 示 。 
表 13-11 main function 的 步骤 说 明 


(trainData, validationData, testData,categoriesMap) =PrepareData(sc) 

(1) 程序 会 读 取 文 本 文件 ， 经 过 数据 转换 产生 LabeledPoint RDD 数据 

(2) 将 数据 以 随机 方式 分 为 3 个 部 分 (trainData、validationData、testData》 并 返回 数 
据 ， 作 为 下 一 阶段 训练 评估 使 用 

(3) 我 们 还 会 返回 categoriesMap〈 网 页 分 类 的 字典 或 对 照 表 ) 作为 后 续 预 测 时 使 用 ， 
后 续 章 节 进行 说 明 

(4) 为 了 增加 运行 效率 ， 我 们 使 用 persist 命令 暂 存在 内 存 中 : 

trainData.persist(); validationData.persist(); testData.persistO 


数据 准备 阶段 
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( 续 表 ) 
说 阴 
> 如 果 不 输入 参数 ， 执 行 训 练 评估 
(AUC,duration, impurityParm, maxDepthParm, maxBinsParm,model}=\ 
trainEvaluateModel(trainData, validationData, "entropy", 5, 5) 
> 如 果 输 入 参数 “-e”， 执 行 参 数 评估 ， 以 图 表 显示 参数 与 准确 率 及 训练 时 间 的 关系 
parametersEval(trainData, validationData) 
> 如 果 输 入 参数 “-a”， 所 有 参数 训练 评估 找 出 最 好 的 参数 组 合 
model=evalAllParameter(trainData, validation Data, 
["gini", "entropy"], 
B510,15,2025), 
[3, 5, 10, 50, 100, 200 ]) 


训练 评估 阶段 


auc = evaluateModel(model, testData) 

(1) 使 用 另外 一 组 数据 testData 再 次 测试 ， 以 避免 overfitting 的 问题 

(2) Overfitting (过度 训练 ) 是 指 机 器 学 习 所 学 到 的 模型 过 度 贴近 trainData， 从 而 导致 
误差 变 得 更 大 

(3) 如 果 训 练 评估 阶段 时 AUC 很 高 ,但 是 测试 阶段 AUC 很 低 ,就 代表 可 能 有 overfitting 
的 问题 

(4) 如 果 测 试 与 训练 评估 阶段 的 结果 AUC 差异 不 大 ， 就 代表 无 overfitting 的 问题 

PredictData(sc, model,categoriesMap) 

新 的 数据 进行 处 理 后 ， 使 用 训练 完成 的 模型 进行 预测 


RunDecisionTreeBinary.py 程序 架构 如 图 13-62 所 示 。 


13-62 ”RunDecisionTreeBinary.py 程序 架构 
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运行 RunDecisionTreeBinary.py | 


13.15.1 执行 参数 评估 
JI01 运行 外 部 工具 ( 见 图 13-63 ) 


ythonProject/RunDecisionTreeBinary.py - Scala IDE 


ep EE | ， 二 这 个 图 
1spark-submit yarn-client 

2 spark-submit 

3spark-submit Standalone 


vB pythonproject i RunAs 中 3. 单 击 要 运行 的 


* BEALSmodel from tighe import time External Tools Configurations. 


pA pandas as pd Organize Favorites. 模式 
1. 单 击 要 运行 的 程序 aiosib maior sea 


KPackage Explorer 3 


图 13-63 运行 外 部 工具 
B02 输入 参数 “-e”( 见 图 13-64) 


Variable input 


Please input a value 


zi> 


2. 单 击 OK 按钮 
Cancel 


图 13-64 输入 参数 


DJ03 评估 impurity、maxDepth、maxBins 参数 


运行 后 会 产生 绘图 ( 见 图 13-65)， 可 参考 13.10 节 的 说 明 。 


65 13-65 评估 impurity、maxDepth、maxBins is 参数 


13.15.2 ”所 有 参数 训练 评估 找 出 最 好 的 参数 组 合 
接 下 来 ， 我 们 将 所 有 参数 训练 评估 找 出 最 好 的 参数 组 合 。 
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I01 运行 外 部 工具 ( 见 图 13-66 ) 


ythonpProject/RunDecisionTreeBinarypy - Scala IDE 


口 > 


卢 PackageExplorer 3 一 口 


3spark-submit Standalone 


3. 单 击 要 运行 的 


v & pythonproject BinAs 


* EALSmodel frond time import time External Tools Configurations... 模式 
* Bdata import pandas as pd Organize Favorites... 


> Erautnut 


rr mle 


图 13-66 运行 外 部 工具 
J02 输入 参数 “-a”( 见 图 13-67) 


Please input a value 


Cancel 
图 13-67 输入 参数 “-a” 
D03 运行 后 的 屏幕 显示 界面 ( 见 图 13-68 ) 


区 Problems 国志 同日 csole x 司 S 

<terminated> sparksubmit [Program] /usr/local/spark/bin/spark-submit 
master=local[*] 

== 数据 准备 阶段 = 
开始 导入 数据 .… 

共计 : 7395 项 

将 数据 分 trainData:5888 validationDal 
训练 评估 阶段 
训练 评估 : 使 用 参数 impurity=entropy maxDepth=5 maxBins=5 所 需 时 间 =14.9017119408 结果 AUC = 0.6428566192€ 
一 一 所 有 参数 训练 评估 找 出 最 好 的 参数 组 合 一 一 一 

训练 评估 : 使 用 参数 impurity=gini maxDepth=3 maxBins=3 所 需 时 间 =2.65354585648 结果 AUC = 0.58523310365 
训练 评估 : 使 用 参数 impurity=gini maxDepth=3 maxBins=5 所 需 时 间 =1.66333413124 结果 AUC = 0.594373992083 
训练 评估 : 使 用 参数 impurity=gini maxDepth=3 maxBins=10 所 需 时 间 =1.40347695351 结果 AUC = 0.586010115819 


739 testData:768 


训练 评估 : 使 用 参数 impurity=entropy maxDepth=25 maxBins=50 所 和 需 时 间 =2.73004603386 结果 AUC = 0.637054684064 
训练 评估 : 使 用 参数 impurity=entropy bt =25 maxBins=100 所 需 时 间 =4.05574393272 结果 AUC = 0.596580413429 
j 果 AUC = 0.645488198211 


UC= 0.660500659727 


liest Data 测 试 最 住 模型 ， 结果 AUC:0.670227551438 

= 一 预测 数据 ==: 

开始 导入 数据 … 

共计 : 3171 项 

网 址 : http://www.lynnskitchenadventures.com/2009/04/homemade-enchilada-sauce.html 
==> 预 测 :1.0 说 明 :长 青 网 页 (evergreen) 


网 址 : http://lolpics.se/18552-stun-grenade-ar 
==> 预 测 :0.0 说 明 : 暂 时 性 网 页 (ephemeral) 


图 13-68 运行 后 的 屏幕 显示 界面 
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运行 后 我 们 可 以 看 到 最 佳 参数 组 合 是 impurity=entropy,maxDepth=10,maxBins=200， 运 行 
结果 AUC 大 约 是 0.66。 


13.15.3 ”运行 RunDecisionTreeBinary.py 不 要 输入 参数 
人 1) 修改 trainEvaluateModel 程序 ， 改 为 最 佳 参数 组 合 ( 见 图 13-69 ) 


因为 找 出 最 佳 参数 组 合 比较 花 时 间 ， 记 以 当 我 们 已 经 找 出 最 佳 参数 组 合 时 ， 可 以 修改 
trainEvaluate 程序 ， 改 为 最 佳 参数 组 合 。 下 次 执行 预测 时 可 以 不 再 执行 参数 调 校 ， 直 接 使 用 最 
佳 参数 进行 预测 。 
回 *RunDecisionTreeBinaryCategoricalFeaturesinfo 3 
if_name_== ”main 


print( "RunDecisionTreeBinary') 
serCreatesparkContext) 


(trainData, validationData, testData, categoriesMap) = PrepareData(sc) 


trainData, Hpeiskt0; validationData, persist(); testData.| baparsist0) 


et validationData, * intropy， 10, 200) 


if (len(sys.argv) == 2) and (sys.argv[1]==“e 小 
parametersEval(trainData, validationData) 


图 13-69 ”修改 为 最 佳 参数 组 合 
02 运行 外 部 工具 ( 见 图 13-70 ) 


Scala IDE - 2. 单 击 这 个 图 标 


1spark-submit yan 
2 spark-submi 
3 spark-submit Standalone 3. 单 击 要 运行 的 
mes 模式 

External Tools Configurations... 
Organize Favorites... 


ythonproject/RunDecisionTreeB 


vB Pythonproject 
* BALSmodel 
* data 
> .Autnut 


图 13-70 运行 外 部 工具 


人 3 运行 RunDecisionTreeBinary.py 不 要 输入 参数 ( 见 图 13-71 ) 


Please input a value 


1. 不 要 输入 参数 


Cancel 


图 13-71 不 输入 参数 
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(304 运行 后 的 屏幕 显示 界面 ( 见 图 13-72 ) 


加 Problems STasks 日 console 3 Pseareh 
<terminated> spark-submit [Program] /usr/locaV/spark/bin/spark-submit. 1. 数据 准备 阶段 


数据 准备 阶段 一 ============= 


共计 ; 7395 项 a 
将 数据 分 trainData:5930 Vandatonpan725 aa 2. 训练 评估 阶段 
========== 训 练 评估 阶段 ===--====== 


训练 评估 : 使 用 参数 impurity=entropy maxDepth=10 maxBins=200 所 需 时 间 =11.2442879677 结果 AUC = 0.665232240437 


========== 测 试 阶段 ==: ES 
jtest Dats; 最 型 ， 结果 AUC:0.536484901788 > E 
使 用 ata 测 试 最 住 模 : 果 E 测试 阶段 


: httpy/www.lynnskitchenadventures'c 
==> 预 测 :1.0 说 明 : 长 青 网 页 (evergreen) 


009/04/homemade-enchilada-sauce.html 


4. 预测 数据 


图 13-72 运行 后 的 屏幕 显示 界面 


网 址 : http://lolpics.se/18552-stun-grenade-ar 
==> 预 测 :0.0 说 明 : 蜀 时 性 网 页 (ephemeral) 


网 址 : http://www.xcelerationfitness.com/treadmills.html 
==> 预 测 :1.0 说 明 :长 青 网 页 (evergreen) 


运行 结果 说 明 如 下 : 


(1) 数据 准备 阶段 ， 显示 导入 数据 项 数 以 及 trainData validationData testData 项 数 。 

(2) 训练 评估 阶段 : 执行 最 佳 参数 impurity=entropy maxDepth=10 maxBins=200， 以 及 评 
估 结果 AUC (大 约 0.66)。 

(3) 测试 阶段 ， 使 用 测试 数据 再 测试 模型 。AUC 大 约 为 0.63， 与 训练 阶段 差异 不 大 ， 
确认 没有 overfitting 的 问题 。 

(4) 预测 阶段 : 使 用 test.tsv 预测 是 长 青 网 页 (evergreen) 还 是 暂时 性 网 页 (ephemeral) 。 
预测 的 结果 显示 出 了 网 址 。 我 们 可 以 使 用 浏览 器 查看 这 些 网 址 ,检查 预测 的 结果 与 人 工 判断 是 
否 相 符 。 


查看 DecisionTree 的 分 类 规则 


人 1) 修改 RunDecisionTreeBinarypy 加 入 查看 分 类 规则 


在 main 程序 的 最 下 面 加 入 model.toDebugString()， 以 查看 DecisionTree 的 分 类 规则 ( 见 图 
13-73 )。 
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(AUC,duration, impurityParm, maxDepthParm, maxBinsParm,model)=\ 
trainEvaluateModel(trainData, validationData, “entropy", 5, 5) 
if (len(sys.argv) == 2) and (sys.argv[1]=="-e): 
parametersEval(trainData, validationData) 
elif (len(sys.argv) == 2) and (sys.argv[1]=="-a"): 
Pprint("-- 记 广博 总 交 廊 记 上 B 拓 玉民 好 人 和 六 
model=evalAllParameter(trainData, validationData, 
["gini", "entropy"), 
[3, 5, 10, 15, 20, 25], 
[3, 5, 10, 50, 100, 200]) 


print(™ WWE ) 
auc = evaluateModel(model, testData) 
print( "全 万 fest Dala AUC :" + str(auc)) 


print("=== 与 光 汉 ===========") 
PredictData(sc, model, categoriesMap 


13-73 ”加 入 查看 分 类 规则 
C302 运行 外 部 工具 ( 见 图 13-74) 


加 入 model.toDebugString() 


RunDecisionTreeBinary.py - Scala IDE 


中 国有 用 里 要 "OO 


[rg 2 和 spark-submit yarn-client 
packageExplorer 2 © 曲 | RunDecisionTreeBinaryF: aes 


2. 单 击 这 个 图 标 
Zspark-submit 
Bm ” 有 


3spark-submit Standalone 3. 单 击 要 运行 的 


名 Pythonproject RunAs 模式 
* @ ALsmodel External Tools Configurations... 
rdata Organize Fayorites... 
> 6 outnut 


13-74 运行 外 部 工具 


人 3 运行 RunDecisionTreeBinary.py 查看 分 类 规则 ( 见 图 13-75 ) 


Console 
|<terminated> spark-submit [Program] /usr/local/spark/bin/spark-submit 


网 址 : http://www. wired.com/aadgetlab/2011/12/stem-turns lemons-and-hmes -into-juicy-atomizers/ 
一 预 对 :0.0 说 明 ;暂时 性 网 页 (ephemeral) 


网 址 ;http://www.latimes.com/heaithvboostershots/la-heb-fat-tax-denmark-20111013.0,2603132.story 
一 顶风 -0.0 这 有 - 色 时 性 及 页 (cphemeren 


网 址 。 http-//www howlfeworks comya/a7AG_JID=11865&cid=7340c 
一 预 则 -1.0 说 明 - 长 青 网 页 (evergreen) 


网 址 :http://romancingthestoveblog wordpress com/2010/01113/sweetpotatoavolHwihemon-sagebrownbuttersaucel 
一 预 到 1.0 说 朋 - 长 青 网 页 (evergreen) 


网 址 : http:/rwwrwfunnleznetFunny-Pkturesturnrmendown html 
一 预 凤 -0.0 说 明 : 暂 对 性 网 页 (ephemeral) 


园 址 ，http//vaufellaslsepwatchingadvd com/ 
一 天 册 ,0.0 说 明 : 暂时 性 网 页 (ephemeral) 


DectsionTreeModel dassfier of depth 5 with 61 nodes 
Tf(feature 31 <= 1203.0) 
JHf(feature 5 = 0.0) 
(feature13 =0.0) 


pret 
Ce 和 一 一 | 分 类 规则 
er 

Else (feature0 >0.0) 

Predict: 1.0 

Else (feature 23> 0.038331454) 
If(feature 15 <= 1.912820513) 
rt 


Eise lfeat ure 15 > 1 912820513) 


13-75 ”查看 分 类 规则 
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人 《64 分 类 规则 说 明 


运行 后 产生 的 分 类 规则 以 下 Else 表示 。 分 类 规则 有 很 多 层 ， 这 里 仅 说 明 两 层 ， 如 图 13-76 所 示 。 


DecisionTreeModel classifier of depth 5 with 61 nodes 
[LL If (feature 31 <= 1213.0) 
于 (feature 23 <= 0.038674033) 
Jf (feature 0 <= 0.0) 
Tf (feature 29 <= 12.0) 
Predict: 1.0 
Else (feature 29 > 12.0) 
Predict: 0.0 
Else (feature 0 > 0.0) 
Tf (feature 16 <= 0.644230769) 
Predict: 1.0 
Else (feature 16 > 0.644230769) 


Predict: 1.0 所 规则 
第 1 层 规则 Else (feature 23 > 0.038674033) ;a 2 层 规则 
If (feature 5 <= 0.0) 
If (feature 15 <= 1.916666667) 
Predict: 0.0 
Else (feature 15 > 1.916666667) 
Predict: 0.0 
Else (feature 5 > 0.0) 
If (feature 23 <= 0.081920904) 
Predict: 1.0 
Else (feature 23 > 0.081920904) 
Predict: 0.0 
Tf (feature 34 <= 0.154166667) 
0) | 
TF(feature 10 <=0.0) 
If (feature 0 <= 0.0) 


图 13-76 ”两 层 分 类 规则 
我 们 可 以 画 出 类 似 图 13-77 所 示 的 树 形 图 (只 画 出 两 层 ) 。 


feature 31 


<=1213.0 >1213.0 


feature 10 


图 13-77 画 出 树 形 图 


结论 


本 章 介绍 了 在 Spark MLlib 支持 决策 树 二 元 分 类 的 基本 原理 ， 完 成 了 数据 准备 、 训 练 模 
型 、 预 测 网 页 是 暂时 性 的 或 是 长 青 的 ， 并 调 校 参 数 找 出 最 佳 参数 组 合 ， 提 高 预测 准确 度 。 下 一 
章 我 们 将 介绍 逻辑 回归 二 元 分 类 。 
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在 线性 回归 中 “ 因 变 量 ” 是 连续 变 项 。 例 如 ， 年龄 与 疾病 
的 关系 是 线性 回归 ， 随 着 年 龄 增长 ， 得 到 某 疾病 的 概率 也 会 增 
加 。 然 而 ， 如 果 “ 因 变量 ”不 是 连续 变 项 ， 而 是 三 分 变 项 〈 例 
如 某 个 年 龄 是 否 得 到 某 疾 病 )， 就 必须 使 用 逻辑 回归 〈Logistic 
Regression) 了 。 

本 章 我 们 将 使 用 第 13 章 所 介绍 的 StumbleUpon 数据 
集 ， 以 届 辑 回归 二 元 分 类 预测 网 页 是 暂时 性 的 Cephemeral) 还 
是 长 青 的 〈evergreen)， 并 训练 评估 找 出 最 佳 参数 组 合 ， 提 高 
预测 准确 度 。 


寿 ， Python+Spark 2.0+Hadoop 机 器 学 习 与 大 数据 实战 


国光 得 回归 分 析 介绍 | 


先 看 看 简单 线性 回归 (Simple Linear Regression )。 
> 简单 回归 分 析 


它 是 假设 变量 的 数值 是 自 变量 x 所 组 成 的 某 种 线性 函数 值 再 加 上 一 个 误差 值 所 得 到 的 数 
值 ， 如 以 下 的 数学 公式 : 


y= bot+bx 


例如 ,年 龄 与 疾病 的 关系 就 是 线性 回归 的 例子 。 随 着 年 龄 的 增长 , 得 某 疾病 的 概率 也 会 增 
加 ， 如 图 14-1 所 示 。 


0 20 40 60 80 100 


14-1 年 龄 与 疾病 的 关系 


在 线性 回归 中 “ 因 变 量 ” 是 连续 变 项 。 如 果 “ 因 变 量 ” 不 是 连续 变 项 ， 而 是 二 分 变 项 ， 
就 必须 使 用 逻辑 回归 分 析 了 。 在 逻辑 回归 分 析 中 , 我们 可 以 将 线性 回归 的 公式 : 


y= bot+bx 
转换 为 sigmoid 的 函数 ， 来 帮助 界定 某 个 data 的 类 。 该 函数 如 下 : 


1 
p= 工 十 e-\botbex) 


通过 sigmoid 计算 出 来 的 值 p (probability) 如 果 大 于 0.5， 就 归 类 为 “会 得 病 ”; 反之 ， 
归 类 为 “不 会 得 病 ”。 人 逻辑 回归 的 图 形 示例 如 图 14-2 所 示 。 
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probability 


8 6 4 2 0 2 4 6 8 
图 14-2 ”线性 回归 的 图 形 示 例 

> 多 元 回归 分 析 ( Multiple Regression Analysis， 或 称 为 复 回归 分 析 ) 

以 上 是 简单 线性 回归 ， 只 使 用 一 个 自 变量 x， 多 元 回归 分 析 使 用 多 个 自 变量 ， 公 式 如 下 : 


F= bot bxs + baxst+'"+ bpxp 


可 将 其 转换 为 sigmoid 的 函数 。logistic regression 多 元 回归 分 析 的 公式 如 下 : 


RunLogisticRegression 
WithSGDBinary.py 程序 说 明 


我 们 已 经 使 用 Spark MLlib 创建 逻辑 回归 分 析 RunLogisticRegressionWithSGDBinary.py， 
完整 的 程序 代码 可 参考 本 书 的 范例 程序 。 程 序 的 架构 与 之 前 第 13 章 介 绍 的 
RunDecisionTreeBinarypy 类 似 ， 可 以 参考 第 13 章 的 详细 说 明 。 本 章 仅 说 明 
RunLogisticRegressionWithSGDBinary.py 重要 的 修改 部 分 。 


人 1 修改 导入 LogisticRegression 链接 库 ( 见 图 14-3 ) 


导入 LogisticRegression 模块 
eon Pen as WP 导入 标准 模块 
全 sp park mllib’ feature Ir import, tStandardscaler 


图 14-3 修改 导入 LogisticRegression 链接 库 


simport sys 
from time importtime 

import pandas as pd 

import 的 pe asplt 


from pyspark. milib, regression import LabeledPoint 


363 


寿 ;， Python+Spark 2.0+Hadoop 机 器 学 习 与 大 数据 实战 


人 2 修改 PrepareData() 


我 们 仍 将 使 用 第 13 章 StumbleUpon 数据 集 来 执行 逻辑 回归 分 析 二 元 分 类 。 

下 列 程序 基本 上 与 第 13 章 决策 树 的 数据 准备 PrepareData() 类 似 。 唯 一 不 同 的 是 ， 当 我 们 
进行 回归 分 析 算 法 时 必须 将 数值 特征 (Numerical Features) 字段 进行 标准 化 。 因 为 数值 特征 字 
段 单位 不 同 ,数字 差异 很 大 ， 所 以 彼此 无 法 比较 。 这 时 就 要 使 用 标准 化 让 数值 特征 字段 具有 共 
同 的 标准 。 

修改 PrepareData()， 加 入 进行 数据 标准 化 的 程序 代码 ， 如 图 14-4 所 示 。 


def PrepareData(sc): 
print( "天女 导 人 才 榨 …) 
rawDataWithHeader = SC.textFile(Path+ "data/train.tsv’) 
header = rawDataWithHeader.first() 
rawData = rawDataWithHeader.filter(lambda x:x !=header) 
rData=rawData.map(lambda x: x.replace(")”", ”")) 
lines = rData.map(lambda x: x.split(“\r")) 
print( "去 矿 : “+ str(lines.count()) + “加 ) 


prink" 甘 淮 比 之 押 . 
categoriesMap = lines.mapllambda fields: fields[3]).\ 
distinct().zipWithIndex().collectAsMap() 
labelRDD = lines.map(lambda F extract_label(n)) 
featureRDD = lines.map(lambda r: extract features(r,categoriesMap,len(r) - 1)) 
for i in featureRDD.first(): 
print (str(i)+"." 


进行 数据 标准 化 之 前 


print" FSE 


stdScaler = StandardScaler(withMean=True, withStd=True).fit(featureRDD) 
ScalerFeatureRDD=stdScaler.transform(featureRDD) A 4 二 YE » 
for iin ScalerFeatureRDD .first(): 进行 数据 标准 化 之 后 


print (strt)+ "), 


labelpoint=labelRDD.zip(ScalerFeatureRDD) 
labelpointRDD=labelpoint.map(lambda r LabeledPoint(r[0], r[1])) 


14-4 修改 PrepareData() 
以 上 程序 建立 训练 评估 所 需 的 数据 主要 分 为 以 下 两 部 分 。 


@ ”进行 数据 标准 化 之 前 : 步骤 3 中 介绍 。 
@ ”进行 数据 标准 化 之 后 : 步骤 4 中 介绍 。 


这 是 为 了 读者 比较 数据 标准 化 的 差异 。 
人 EL3 spark-submit YARN-client 设置 外 部 工具 

标准 化 之 前 的 程序 代码 与 第 13.6 节 决 策 树 二 元 分 类 相同 ， 可 参考 第 13.6 节 的 
PrepareDate0。 为 了 能 让 读者 了 解 标准 化 之 前 与 之 后 数据 的 不 同 ， 我 们 以 下 列 指令 显示 标准 化 


之 前 的 第 一 项 数据 。for 语句 会 读 取 featureRDD.first0 的 每 一 个 字段 ， 再 使 用 print (str(i)+",") 
显示 出 每 一 个 字段 数据 。 


print ”标准 化 之 前 : "， 
for i in featureRDD.first() : 
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人 04 进行 数据 标准 化 
> ”创建 标准 化 刻度 


使 用 StandardScaler 创建 标准 化 刻度 stdScaler， 传 入 withMean 与 withStd 参数 ， 并 且 使 用 
fit 方 法 传 入 featuresData 特征 字段 。 


> ”进行 标准 化 转换 


使 用 上 一 条 命令 创建 的 标准 化 刻度 stdScaler 的 transform 方法 传 入 features 特征 字段 参数 ， 
进行 标准 化 转换 。 


> 显示 标准 化 之 后 的 第 一 项 数据 


我 们 以 下 列 语句 显示 标准 化 之 后 的 第 一 项 数据 。for 语句 会 读 取 ScalerFeatureRDD. first() 
的 每 一 个 字段 ， 再 使 用 print (str(i)+",") 显 示 出 每 一 个 字段 数据 。 


> 将 label 与 标准 化 后 的 特征 字段 结合 
我 们 使 用 zip 将 label 与 标准 化 后 的 特征 字段 结合 起 来 建立 labelpoint。 


> 创建 LabeledPoint 数据 


后 续 训 练 必 须 使 用 LabeledPoint 数据 ， 所 以 使 用 之 前 的 labelpoint 用 map 转换 来 建立 
LabelPoint 数据 格式 。 


3705 训练 模型 
使 用 LogisticRegressionWithSGD 进行 逻辑 回归 分 析 训 练 ， 如 图 14-5 所 示 。 
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ef tralnEvaluateModel(trainData,validationData, 
numlIterations, stepSize, miniBatchFraction): 
startTime = time() 
model = LogisticRegressionWithSGD.train(trainData, 
numIterations, stepSize, miniBatchFraction) 
AUC = evaluateModel(model, validationData) 
duration = time() - startTime 
Print “ 访 绎 评 台 - 议 丰 寡 卉 "+\ 
“numlterations="+str(numIterations) +\ 
"stepSize="+str(stepSize) + \ 
“ miniBatchFraction="+str(miniBatchFraction) +\ 
"万 堵 W/ ="+str(duration) + \ 
" 堵 詹 4UC = “+ str(AUC) 
return (AUC,duration, numlterations, stepSize, miniBatchFraction,model) 


图 14-5 进行 逻辑 回归 分 析 训 练 


在 LogisticRegressionWithSGD 中 使 用 Stochastic Gradient Descent (简称 SGD) 梯度 下 降 
法 求 得 最 佳 解 ， 必 须 输 入 下 列 内 容 : 


LogisticRegressionWithSGD.train(trainData, numlterations, stepSize,miniBatchFraction) 


返回 : LogisticRegressionModel。 
参数 说 明 如 表 14-1 所 示 。 


表 14-1 参数 说 明 


说 明 


输入 的 训练 数据 


使 用 SGD 迁 代 次 数 ， 默 认为 100 
[as | 每 次 执行 SGD 迁 代 步 长 大 小 ， 默 认为 1 
每 次 迭代 参与 计算 的 样本 比例 ， 数 值 在 0~1 之 问 ， 默 认为 1 


J06 parametersEval 函数 


在 之 前 的 章节 中 ， 我 们 使 用 如 下 命令 
进行 训练 会 返回 model 训练 完成 的 模型 : 


LogisticRegressionWithSGD.train 


def parametersEval(trainData, validationData): 
print( -一 衣 信 numlterations 参 夫 售 [ -一 -一 | 


umlterations", 


(trainData, numIterations, 
stepSize, miniBatchFraction) 


在 这 里 我 们 评估 的 参数 共有 3 个 ， 即 
numlterations、 stepSize、 miniBatchFraction。 
我 们 希望 知道 不 同 的 参数 值 对 于 准确 率 的 
影响 以 及 执行 所 需要 的 时 间 。 评 估 的 方法 
是 同时 间 只 评估 一 个 参数 。 详 细 内 容 请 参 
考 第 13 章 的 说 明 。 编 写 parametersEval 
参数 评估 函数 ， 如 图 14-6 所 示 。 
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evalParameter(trainData, validationData, 
numlterationsList=[5, 15, 20, 60, 100], 
stepSizeList=[10], 
miniBatchFractionLi: ) 
print("- 一 -- 序 他 stepSize 参 痊 售 膨 -一 一 ) 
evalParameter(trainData, validationData, “stepSize”, 
numlterationsList=[100], 
stepSizeList=[10, 50, 100, 200], 
miniBatchFractionList=[1]) 
Print("----- 亲 台 miniBatchFraction 和 佐 履 多 万 -一 一 中 
evalParameter(trainData, validationData, “miniBatchFraction”, 
numIterationsList=[100], 
stepSizeList =[100], 
miniBatchFractionList=[0.5, 0.8, 1 ]) 


图 14-6 编写 parametersEval 参数 评估 函数 
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ER7 main 函数 


编写 main 函数 , 与 第 13 章 的 main 函数 类 似 , 只 是 参数 要 改 为 LogisticRegressionWithSGD 
训练 评估 所 需 参 数 〈 见 图 14-7， 可 参考 第 13.14.1 小 节 的 说 明 )。 


i_name_== ”main 
print("RunLogisticRegressionWithSGDBinary") 
sc=CreateSparkContext() 
print( "= = 益 入 内 谓 所 民 == ==") 
(trainData, validationData, testData, categoriesMap) =PrepareData(sc) 
trainData.persist(); validationData.persist(); testData.persist() 
print( ”= 训 组 评 半 有 失 民 = ==") 
(AUC, duration, numIterationsParm, stepSizeParm, miniBatchFractionParm,model)= \ 
trainEvaluateModel(trainData, validationData, 15, 10, 0.5) 
if (len(sys.argv) == 2) and (sys.argv[1] e"): 
parametersEval(trainData, validationData) 
elif (len(sys.argv) == 2) and (sys.argv[1]=: : 
print( ”一 万 硼 稼 鸡 动 符 评 从 龙 册 晨 好 的 参 慌 缁 后 一 一 一 
model=evalAllParameter(trainData, validationData, 
[3, 5, 10,15], 
[10, 50, 100], 
[0.5, 0.8, 1]) 


print("= AR 有 ] 
auc= evaluateModel(model, testData) 
print( 人 甘 先 4UC:" + str(auc)) 


print( 
PredictData(sc, model, categoriesMal 


14-7 编写 main 函数 


) 


运行 RunLogisticRegression 
WithSGDBinary.py 进行 参数 评估 


人 To01 运行 外 部 程序 ( 见 图 14-8 ) 


>ythonproject/RunLogisticRegressionWithsGDBinary.py - Scala IDE 


1sparksubmit 
park-submit yarn-client 
各 park-submit standalone 3. 单 击 要 运行 的 
RunAs 4 > 
External Tools Configurations. 模式 
Organize Favorites. 


packageExplorer 3 = O 


v @& Pythonproject 
» GALSmodel 
* © data 

_ eautnit 


14-8 ”运行 外 部 程序 
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人 2 输入 参数 “-e”( 见 图 14-9 ) 


Please input a value 


14-9 输入 参数 “-e” 


人 03 数据 准备 阶段 
我 们 可 以 看 到 数据 在 标准 化 前 后 的 数据 〈 见 图 14-10)。 


14-10 数据 准备 阶段 
从 中 可 以 看 到 标准 化 之 前 与 之 后 的 差异 。 
人 4 numlterations 参数 评估 


2. 单 击 OK 按钮 


接 下 来 , 程序 会 显示 如 图 14-11 所 示 的 numlterations 参数 评估 结果 图 。 其 中 ， 柱 形 图 代表 
AUC、 折 线 图 代表 运行 的 时 间 。 从 图 14-11 可 以 看 到 numlterations=15 时 AUC 最 高 ， 而 


numlterations=60 时 运行 时 间 最 多 。 


EREETET | 
图 14-11 numlterations 参数 评估 结果 图 
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人 5 stepSize 参数 评估 
从 图 14-12 可 以 看 到 ，stepSize=10 时 AUC 最 高 。stepSize 越 大 ， 所 需 时 间 越 少 。 


全 OO 直 辐 加 贺 


14-12 stepSize 参数 评估 
Jl06 miniBatchFraction 参数 评估 


从 图 14-13 可 以 看 到 ，miniBatchFraction=1 时 AUC 最 高 。 所 需 的 时 间 没 有 太 大 的 差异 。 


070, miniBatchFraction 28 
mm AUC 

127 

ba 26 
12.5 

区 a4 
12.3 

区 | 22 
1 

SY pa 于 2 

Ss Ss = 
mnieatchFraction 
们 OO 十 后 回 国 yt 


图 14-13 ”miniBatchFraction 参数 评估 
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4 找 出 最 佳 参数 组 合 


C01 运行 程序 ,输入 参数 “-a”( 见 图 14-14) 


Pleaseinputa value 


14-14 ”输入 参数 


C02 训练 评估 参数 ， 找 出 最 佳 参 数组 合 ( 见 图 14-15 ) 


9 probloms DTasks 日 console 2 Saareh 


<terminated> spark-submit [program] /ust/local/spark/bin/spark-submit 
数据 准备 阶段 = 
开始 导入 数据 … 

共计 ; 7395 项 

标准 化 之 前 : 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0/0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.789131, 2.055555556, 0.676470588, 0.205882353, 0.04 
0.101894690972, -0.446421204794, 2.72073665645, -0.204182210579, -0.028494000387, -0.220526884579, -0.201g 
训练 评估 阶段 = 
es 


yspark/milib/classification.py:313: UserWarning: Deprecated in 2.0.0. Use ml.classificat 
stepslze=19 minlBatchFractlon=0.5 所 需 时 间 =13.2727401257 结果 AUC = 0.64727976326 


i 使 用 参数 numIterations=3 stepSize=10 miniBatchFraction=0.5 所 需 时 间 =2.49858903885 结果 AUC = 0.564843419726 
训练 评估 : 使 用 参数 “numIterations=3 stepSize=10 miniBatchFraction=0.8 所 需 时 间 -1.1967689991 结果 AUC = 0.566396214757 
训练 评估 : 使 用 参数 numTterations=3 stepSize=10 miniBatchFraction=1 所 堆 时 间 =1 10024404526 结 里 AUC = 0.560672823648 


numlterations=15 stepSize=100 miniBatchFraction=0.8 所 需 时 间 =0.925448894501 结果 AUC = 0.538356476212 


http://www.lynnskitchenadventures.com/2009/04/homemade enchilada saucehtml 
==> 预 测 :0 说 明 :暂时 性 网 页 (ephemeral) 


图 14-15 ” 找 出 最 佳 参 数组 合 


5 修改 程序 使 用 参数 进行 预测 


因为 训练 评估 比较 费时 ， 所 以 当 我 们 找 出 最 佳 参数 组 合 时 ， 可 以 修改 trainEvaluateModel 
程序 ， 改 为 最 佳 参数 组 合 。 下 次 要 运行 预测 程序 时 可 以 不 再 运行 训练 评估 ,直接 使 用 最 佳 参数 
进行 预测 。 
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人 Ri 修改 默认 的 训练 参数 为 最 佳 参数 组 合 
修改 trainEvaluateModel 程序 ， 改 为 最 佳 参数 组 合 ， 如 图 14-16 所 示 。 


if_name_ == 
print("RunLogistic 
Se-CreateSparkcontex 
Print( "========== -= 吉 楷 兴奋 春 砌 =============== 1? 
(trainData, validationData, testData, categoriesMap) =PrepareData(sc) 
trainData.persist(); validationData.persist(); testData.persist() 
print( = = 荔 竺 评 外 看 屡 = 小 
(AUC, duration, numIterationsParm, stepSizeParm, miniBatchFractionParm,model)= \ 


ionWithSGDBinan) 


ee a) 修改 为 最 佳 参数 组 合 
elif (len(sys.argv) == 2) and (sys.argv[1]=="-a1): 


14-16 ”修改 为 最 佳 参 数组 合 


人 02 运行 外 部 程序 ( 见 图 14-17 ) 


>ythonproject/RunLogisticRegressionWIthsGDBInary.py - Scala IDE 


入 用 "到" 济 " 中 人 


1spark-submit 


2. 单 击 这 个 图 标 
2spark-submit yarn-client 


3sparksubmit Standalone 3. 单 击 要 运行 的 
RunAs 模式 


External Tools Configurations. 
Organize Favorites... 


BS Package Explorer 3 


vB pythonproject 
* BALSmodel 
» data 
aubnit 


图 14-17 运行 外 部 程序 


人 3 运行 RunLogisticRegressionWithSGD.py， 不 要 输入 参数 ( 见 图 14-18 ) 


Variable input 


Please input a value 


i | 不 本 输入 参数 | 


Cancel 


图 14-18 不 输入 参数 


304 再 次 运行 程序 


运行 结果 如 图 14-19 所 示 。 从 中 可 以 看 出 ， 程 序 训练 完成 后 就 可 以 进行 预测 。 因 为 不 进行 
训练 评估 ， 所 以 运行 所 需 时 间 较 少 。 
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a sparksubmit parameter [Program] /usr/local/spark/bin/spark-submit 


i 


共计 ; 7395 项 
标准 化 之 前 ; 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.789131, 2.055555556, 0.676470588, 0.205882353, 0.04705: 
标准 化 之 后 ; -0.4464212047' 0 -0.204182210579, -0.220526884579, -0.0648775723926, -0.270999069693, -0.680752; 

=====-== 训 练 评估 阶段 = 
训练 评估 : 使 用 参数 numlterations=15 ep 


共计 ; 3171 项 
网 址 ; http://www.lynnskitchenadventures.com/2( 
==> 预 测 :0 说 明 : 暂时 性 网 页 (ephemeral) 


homemade-enchilada-sauce.html 


网 址 : 


http://lolpics.se/18552-stun-grenade-ar 
==> 预 测 :0 说 明 :暂时 性 网 页 (ephemeral) 


网 址 : http://www.xcelerationfitness.com/treadmills.html 
==> 预 测 :0 说 明 : 暂时 性 网 页 (ephemeral) 


网 址 : http://www.bloomberg.com/news/2012-02-06/syria-s-assad-deploys-tactics-of-father-to-crush-revolt-threatening-reign.html 
==> 预 测 :0 说 明 :暂时 性 网 页 (ephemeral) 


14-19 运行 程序 结果 


(1) 数据 准备 阶段 : 显示 trainData、validationData、testData 导入 项 数 。 

(2) 训 练 评估 阶段 : 执行 最 佳 参数 组 合 numlterations = 15、stepSize = 10、miniBatchFraction 
= 0.5，AUC 大 约 为 0.68。 

(3) 测试 阶段 : 使 用 测试 数据 再 测试 模型 , AUC 大 约 为 0.64。 与 训练 评估 阶段 差异 不 大 ， 
确认 没有 overfitting 的 问题 。 

(4) 预测 阶段 :使 用 test.tsv 预测 是 长 青 网 页 还 是 暂时 性 网 页 。 预 测 的 数据 会 显示 网 址 ， 
可 以 使 用 浏览 器 查看 一 下 是 否 准 确 。 


本 章 介绍 了 Spark MLlib 逻辑 回归 二 元 分 类 的 基本 原理 ， 完 成 了 数据 准备 、 训 练 模型 、 
预测 网 页 是 暂时 性 还 是 长 青 的 ， 并 且 通 过 训练 评估 找 出 最 佳 参数 组 合 ， 提 高 预测 准确 率 。 下 一 
章 我 们 将 介绍 支持 向 量 机 SVM 二 元 分 类 。 
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支持 向 量 机 (Support Vector Machine，SVM) 是 一 种 监督 
式 学 习 的 方法 ， 广 泛 运用 于 机 器 学 习 分 类 。 

本 章 将 使 用 第 13 章 介 绍 的 StumbleUpon 数据 集 ， 运 用 支 
持 向 量 机 SVM 二 元 分 类 来 预测 网 页 是 暂时 性 的 还 是 长 青 的 ， 
并 且 通 过 训练 评估 找 出 最 佳 参 数组 合 ， 提 高 预测 准确 度 。 
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15.1 支持 向 量 机 SVM 算法 的 基本 概念 


SVM 可 以 用 来 作为 分 类 〈Classification) 的 工具 。 在 说 明 SVM 分 类 的 方法 之 前 ， 我 们 先 
看 图 15-1。 图 15-1 中 有 圆 点 以 及 三 角形 的 点 ， 希 望 找 出 一 条 线段 进行 比较 好 的 分 类 。 


1 3 
. . 
ww A AN。 


15-1 不 同 分 类 的 示意 图 


SVM 主要 是 在 寻找 最 大 边际 的 超 平面 (Maximum Marginal Hyperplane) ， 因 为 其 具有 较 
高 的 分 类 准确 性 ， 并 且 有 较 高 的 误差 容忍 度 。 如 图 15-2 所 示 的 虚线 范围 ， 其 中 的 第 3 张 图 的 
分 类 具有 最 大 的 边际 区 ， 所 以 对 于 SVM 算法 而 言 ， 此 图 是 比较 好 的 分 类 。 


1 p] 3 
图 15-2 寻找 最 大 边际 的 超 平面 


> RunSVMWithSGDBinary.py 程序 说 明 


我 们 已 经 使 用 Spark MLlib 创建 了 支持 向 量 机 分 析 RunSVMWithSGDBinary.py, 完整 的 程 
序 代 码 可 参考 本 书 范例 程序 。 程 序 的 架构 与 之 前 第 13 章 介绍 的 RunDecisionTreeBinary.py 类 似 ， 
可 以 参考 第 13 章 的 详细 说 明 。 以 下 仅 说 明 RunSVMWithSGDBinary.py 重要 的 修改 部 分 。 


BT01 导入 SVMWithSGD 链接 库 ( 见 图 15-3 ) 


import sys 
from time Import time 

import pandas as pd 

import matplotlib.pyplot as plt 

from pyspark import SparkConf, SparkContext 


导入 SVMWithSGD 模块 
from pyspark.mllib.regression import LabeledPoint 

import numpy as np 

from pyspark.mlllb.evaluatlon Import BinaryClassificatilonMetrics 
from pyspark.mllib.feature import StandardScaler 


图 15-3 导入 SVMWithSGD 模块 
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人 02 修改 PrepareData() 以 便 加 入 数据 标准 化 的 程序 代码 


支持 向 量 机 SVM 二 元 分 类 ， 也 是 需要 进行 数据 标准 化 ， 这 部 分 请 参考 第 14 章 加 入 数 
据 标准 化 的 部 分 。 


CBT03 trainModel 训练 模型 


接 下 来 使 用 SVMWithSGD 进行 逻辑 回归 分 析 训 练 ， 如 图 15-4 所 示 。 


| def tralnEvaluateModel(trainData,validationData, 
Numlterations, stepSize, regParam): 


| startTime =tim 


AUC = evaluateModel(model, validationData) 
| duration =time() - startTime 


| print “ 动 各 评 蔡 湖 用 "+ 
“ numilteratlons="+str(numlterations) +\ 
stepSlze="+str(stepSize) + \ 
“ regParam="+str(regParam) +\ 
癌 ="+str(duration) + \ 
等 村 4UC- "+ str(AUC) 
| returm (AUC,duration, numlterations stepSize, regParam,model) 


图 15-4 ”使 用 SVMWithSGD 进行 逻辑 回归 分 析 训 练 


在 SVMWithSGD 使 用 Stochastic Gradient Descent (简称 SGD) 梯度 下 降 法 方式 求 得 最 佳 
解 ， 所 以 必须 输入 下 列 参数 : 


SVMWithSGD.train(trainData, numlterations, stepSize, regParam)LogisticRegressionModel 


返回 : LogisticRegressionModel。 


说 阴 
输入 的 训练 数据 LabeledPointRDD 
| 使 用 SGD 和 迭代 次 数 ， 默 认为 100 


每 次 执行 SGD 迭代 步 长 的 大 小 ， 默 认为 1 
正则 化 参数 ， 数 值 为 0~1 之 间 


人 4 输入 parametersTunning 函数 ( 见 图 15-5) 


def ParametersevallrainD ete, ValidationData): 


print("----- 前 人 台 numlterations 参 总 区 历 -------") 
evalparameterttrainData， validationData,” “numlterations', 
numlterationsList= [1, 3, 5, 15, 25], 


stepSizeList=[100], 
regparamList=[1]) 
print( "一 - 评 侣 stepSize 坛 数 范 历 --------") 
evalparameter(trainData, validationData, "stepSize', 
numlterationsList=[25], 


stepSizeList= [10, 50, 100, 200], 
regParamList=[1]) 


printt"- 一 - 藤 从 regpParam 和 参战 范 历 一 -一 ") 
evalParameter(trainData, validationData, “regParam”", 
NumliterationsList=[25], 


stepSizeList =[100], 
regParamList=[0.01, 0.1, 1 ]) 


15-5 ”输入 parametersTunning 函数 
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在 这 里 评估 的 参数 共有 3 个 : numlterations、stepSize、regParam。 我 们 希望 得 知 不 同 的 参 
数值 对 准确 率 的 影响 以 及 运行 所 需要 的 时 间 。 评 估 的 方法 是 同时 间 只 评估 一 个 参数 。 


main 函数 


C 


编写 main 函数 ( 见 图 15-6), 与 第 13 章 的 main 函数 类 似 , 只 是 参 
训练 评估 所 需 的 参数 。 请 参考 第 13.14 节 的 说 明 。 


ii_name_ 一 ”main “ 
print “RunSVMWIthSGDBinary") 
sc=CreateSparkContext() 
print("======= 一 - 发 李 首府 扒 民 ======= 一 ====== 站 
(trainData, validationData, testData, categoriesMap) =PrepareData(sc) 
trainData.persist(); validationData.persist(); testData.persist() 
print( 动产 天 府内 大 一 -一 一 一 -一 时 
(AUCduration numlterations, stepsize, regparam,model)= \ 
trainEvaluateModel(trainData, validationData, 3, 50, 1) 
if (len(sys.argv) == 2) and (sys.argv[1]=="-e"): 
parametersEval(trainData, validationData) 
elif (len(sys.argv) == 2) and (sys.argv[1]==" 


数 改 为 SVMWithSGD 


让 
print( ”一 万 方 参 堪 训 络 评 双 帮 击 展 好 09 参 颈 有 他 ) 
model=evalAllparameter(trainData, validationData, 
[1,3, 5, 15, 25], 
[10, 50, 100, 200], 


print( 
auc = evaluateModel(model, testData) 
print( "Ma 
print(“ 
PredictDatalsc, model, categorlesMap) 


15-6 ”编写 main 函数 


上 Package Explorer 器 


多 PythonProject 


ALSmodel ime i i External Tools Configurations... 


data i Organize Fayorites.. 
pe.autnut : ls 


图 15-7 运行 外 部 程序 
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人 2 输入 参数 “-e”( 见 图 15-8 ) 


Variable input 


Please input a value 


1. 输入 参数 “ 


图 15-8 输入 参数 “-e” 


03 numlterations 参数 评估 


从 图 15-9 可 以 看 到 numlterations=1 时 AUC 最 高 ， 不 过 差异 不 大 。 除 了 numlterations=1l 
需要 较 多 时 间 之 外 ， 其 余 随 着 numlterations 增 大 所 需 的 时 间 越 来 越 多 。 


numlterations 


图 15-9 ”numlterations 参数 评估 


人 4 stepSize 参数 评估 


从 图 15-10 可 以 看 到 stepSize=200 时 AUC 最 高 。 在 100 之 前 ，stepSize 越 大 ， 所 需 的 时 间 越 少 。 


他 日 昌 十 可 二 加 Se 


图 15-10 ”stepSize 参数 评估 
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人 5 regParam 参数 评估 


从 图 15-11 可 以 看 到 regParam=1 时 AUC 最 高 。regParam 越 大 ， 所 需 时 间 越 少 。 


图 15-11 regParam 参数 评估 


运行 SVMWithSGD.py 训练 评估 参数 
并 找 出 最 佳 参数 组 合 


接 下 来 ， 我 们 以 evaluateAllParameter 函数 训练 评估 3 种 参数 ， 和 希望 找 出 最 好 的 参数 组 


二 
Fo 


I01 输入 参数 “-a”( 见 图 15-12) 


Variable input 


Please input a value 


Cancel 


15-12 输入 参数 “-a” 


本 302 进行 训练 评估 参数 ， 找 出 最 佳 的 参数 组 合 ( 见 图 15-13 ) 
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EE Problems Tasks 目 Console 3 PSearch 
<terminated> spark-submit [Program] /usr/local/spark/bin/spark-subm 


rv 四 训练 评估 阶段 ， 找 出 最 佳 参数 组 合 


共计 : 7395 项 
标准 化 之 前 ; 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.9/0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.789131, 2.055555556, 0.676470588, 0.205882: 


训练 评估 : 使 用 参数 numiterations=1 stepSize=10 regParam=0.01 所 需 时 间 =1.59783101082 结 里 AUC = 0.665127607435 
训练 评估 : 使 用 参数 numlterations=1 stepSize=10 regParam=0.1 所 需 时 间 =1.8175110817 结果 AUC = 0.665127607435 
训练 评估 : 使 用 参数 numlterations=1 stepSize=10 regParam=1 所 需 时 间 =0.893939971924 结果 AUC = 0.665127607435 


|N 颖 评 信 “使 用 参数 numiterations=25 stepsize=100 regpsr3mz=1 所 需 时 间 =110374192615 结 果 AUC= 0.665053438193 
训练 评估 - 使 用 参数 numlterations=25 stepSize=200 regParam=0.01 所 需 时 间 =1.08016705513 结 果 AUC= 0.566167574108 
训 络 评估 : 使 用 参数 numlterations=25 stepSize=200 regParam=0.1 所 需 时 间 -~1.04560422897 结案 AUC= 0.665053438193 


使 用 te>t Dato 测 斌 最 佳 模型 , 结果 AUC :0.650280898876 
预测 致 据 : 


开始 导入 数据 
共计 ; 3171 项 


15-13 ” 找 出 最 佳 参数 组 合 


运行 SVMWithSGD.py 使 用 最 佳 参数 进行 预 涡 


训练 评估 比较 费时 , 当 我 们 已 经 找 出 最 佳 参数 组 合 时 可 以 修改 trainEvaluateModel 程序 为 最 佳 


参数 组 合 。 下 次 要 运行 预测 程序 时 ， 可 以 不 再 运行 训练 评估 ， 直 接 使 用 最 佳 参数 进行 预测 。 


人 1 修改 trainEvaluateModel 为 最 佳 参数 组 合 


修改 trainEvaluateModel 程序 ， 改 为 最 佳 参 数组 合 ， 如 图 15-14 所 示 。 


© *RunsvMwithscpeinary 3 


if_name_ == "main 
print( "RunSVMWIthSGDBinary") 
sc=CreateSparkContext() 
print( ”= 堪 扬 准 亩 所 屋 ") 
(trainData, validationData, testData, categoriesMap) ~PrepareData(sc) 
trainData.persi 
print(” J FAB 
(AUCduration numlterations. stepSize, regParam.model)=\ 
修改 为 最 人 参数 组 合 
if (len(sys.argv) == 2) and (sys.argv[1]=: : 
parametersEval(trainData, validationData) 
elif (len(sys.argv) ) and (sys.argv[1]=='-a9: 
Print( "一 一 廊 育 参考 动 雄 评 台 大凡 尾 配 的 参 性 轨 合 
model=evalAllParameter(trainData, validationData, 
[1, 3, 5 15, 25], 
[10, 50, 100, 200], 


[0.01, 0.1, 1]) 
print( THE 
auc = evaluateModel(model, testData) 
Print(" 语 用 test Dat3 测 这 宕 寿 巷 型 . 茵 壬 AUC:"+ str(auc)) 
print( 疯 浊 并 所 ") 
PredictData(sc, model, categoriesMap) 


图 15-14 ”修改 为 最 佳 参 数组 合 
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I02 运行 外 部 程序 ( 见 图 15-15 ) 


ythonProject/RunLogisticRegressionwithsGDBinary py- Scala IDE 


I 


E 


a park submit 
ey 2spark-submit yarn-client 
3spark-submit Standalone 


3. 单 击 要 运行 的 


v 区 PythonProject 
* SALSmodel fro 
* data 


RunAs 
External Tools Configurations... 
Organize Favorites... 


模式 


imgor pandas as pd 


15-15 运行 外 部 程序 


人 03 不 输入 参数 ( 见 图 15-16) 


Pleaseinputa value 


Cancel 


图 15-16 不 输入 参数 
B04 运行 结果 

运行 结果 如 图 15-17 所 示 ， 从 中 可 以 看 到 程序 训练 完成 后 就 进行 了 预测 。 因 为 不 需要 进行 
训练 评估 ， 所 以 运行 所 需 时 间 比 较 少 。 


加 Problems 冶 Tasks 


[terminated> spark-submit parameter [Program] /usr/local/spark/bin/spark-submit 
Master=locall4] 


ScalerFeatureRDD.first()= -0.446421204794, 2.72073665645, -0.204182210579, -0.220526884579, -0.0648775723926, -0.270999069693, -0 
训练 评估 阶段 =: 


训练 评估 : 使 用 参数 numiterations=3 stepsi regPara 213312149 结 果 AU 
所 测试 阶段 
使 用 test Dal 


ta 测 斌 最 住 机 型 , 结果 AUC 0.66263 

= 预测 数据 

开始 导入 数据 

共计 :3171 项 

网 址 :http://Wwwwlynnskitchenadventures.com/2009/ 
一 > 预测 : 1 说明 : 长 青 网 页 (evergreen) 


lemade-enchilada-sauce.html 


网 址 : http://lolpics.se/18552-stun-grenade-ar 
一 > 了 预测 : 1 况 明 : 长 青 网 页 (evergreen) 


网 址 : http://www.xcelerationfitness.com/treadmills.html 
一 > 预测 : 1 说 明 : 长 青 网 页 (evergreen) 


网 址 : http://www.bloomberg.com/news/2012-02-06/syria-s-assad-deploys-tactics-of father-to-crush-revolt-threatening-reign.html 
一 > 预测 ”1 说 明 “长 青 网 页 (evergreen) 


网 址 : http-//www wired com/gadgetiab/2011/12/stem-turns-lemons-and-limes-into-juicy-atomizers/ 


一 > 预测 : 1 说 明 : 长 青 网 页 (evergreen) 


图 15-17 运行 结果 
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(1) 数据 准备 阶段 : 显示 导入 项 数 以 及 trainData、validationData、testData 项 数 。 

(2) 训练 评估 阶段 : 运行 最 佳 参 数组 合 numlterations=3、stepSize=50、miniBatchFraction 
= 1， 结 果 AUC =0.63。 

(3) 测试 阶段 :使 用 测试 数据 再 测试 模型 ，AUC 大 约 为 0.66。 与 训练 阶段 差异 不 大 ， 确 
认 没 有 overfitting 的 问题 。 

(4) 预测 阶段 : 使 用 test.tsv 预测 是 长 青 网 页 (evergreen) 还 是 暂时 性 网 页 (ephemeral) 。 
预测 的 数据 会 显示 出 网 址 ， 可 以 用 浏览 器 查看 一 下 是 否 准确 。 


本 章 介绍 了 Spark MLlib 支持 向 量 机 SVM 的 基本 原理 ， 完 成 了 数据 准备 、 训 练 模型 、 预 
测 网 页 是 暂时 性 还 是 长 青 ， 并 调 校 参数 找 出 最 佳 参 数组 合 ， 提 高 预测 准确 度 。 下 一 章 我 们 将 介 
绍 朴 素 贝 叶 斯 二 元 分 类 。 
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第 16 章 Python Spark 
ALIib 朴 泰 贝 叶 期 二 元 分 类 


朴素 贝 叶 斯 (Naive-Bayes) 分 析 是 简单 而 且 实用 的 分 类 方 
法 。 朴 素 贝 叶 斯 分 类 法 以 贝 氏 定理 (Bayes' theorem ) 为 基础 。 
贝 氏 定理 来 自 于 18 世纪 数学 家 托马斯 贝 叶 斯 。 朴 素 贝 叶 斯 分 
类 法 希望 能 通过 概率 统计 的 分 析 来 判断 未 知 类 的 数据 应 该 属 
于 哪 一 类 。 
本 章 将 使 用 第 13 章 介绍 的 StumbleUpon 数据 集 ， 运 用 村 
素 贝 叶 斯 (Naive-Bayes) 二 元 分 类 来 预测 网 页 是 暂时 性 
(ephemeral) 的 还 是 长 青 的 (evergreen)， 并 通过 训练 评估 找 
出 最 佳 参数 组 合 ， 提 供 预 测 准确 度 。 


第 16 章 ”Python Spark MLiib 朴素 贝 叶 斯 二 元 分 类 < 


业 本 素 风 rt 斯 分 析 原 理 的 介绍 


人 ET 补 素 贝 叶 斯 分 析 实 例 


朴素 贝 叶 斯 分 析 借 助 分 析 数据 中 的 特征 与 标签 之 间 的 概率 来 作为 分 类 的 依据 。 
假设 我 们 有 10 条 训练 样本 如 下 : 


| Fr EE 


| mn ll 天 


我 们 想 要 判断 新 进 样本 “高 气压 、 湿 度 51~60、 西 风 ， 是 否 会 下 雨 ” 的 时 候 : 

(1) 首先 计算 “高 气压 、 湿 度 51~60、 西 风 ， 会 下 雨 的 概率 ” 

(2) 接 下 来 计算 “高 气压 、 湿 度 51~60、 西 风 ， 不 会 下 十 的 概率 ” 

(3) 如 果 “ 会 下 雨 的 概率 ”>“ 不 会 下 雨 的 概率 ”， 朴素 贝 叶 斯 分 类 预测 新 进 样本 “会 下 

(4) 如 果 “ 会 下 雨 的 概率 ”<“ 不 会 下 雨 的 概率 ” 朴素 贝 叶 斯 分 类 预测 新 进 样本 “不 会 
下 雨 ”。 


02 计算 “高 气压 、 湿 度 531~60、 西 风 ， 会 下 雨 的 概率 ” 


首先 ， 计 算 “ 高 气压 、 湿 度 51~60、 西 风 ， 会 下 雨 的 概率 ”， 方 式 如 下 : 
P( 会 )* P( 高 | 会 ) *P(51~60 | 会 ) *P( 西 | 会 )=(6/10)* (2/6) * ( 2/6) * (2/6) =0.02222 
说 明 如 下 : 
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概率 条 件 计算 方式 计算 结果 


(会 ) (会 下 十 的 个 数 )/( 全 部 个 数 ) 
(高 气压 且 会 下 雨 的 个 数 ) / (会 下 雨 的 个 数 ) 


ETIIIRRETITT 
RT 的 个 (AT 和 人 


P( 会 )* P( 高 会 ) * 
6/10)* (2/6) * ( 2/6) * (2/6 0.02222 
Per | oe | 


G03 计算 “高 气压 、 湿 度 1~60、 西 风 ， 不 会 下 雨 的 概率 ” 


接 下 来 ， 计 算 “ 高 气压 、 湿 度 51~60、 西 风 ， 不 会 下 雨 的 概率 ”， 方 式 如 下 : 
P( 不 会 ) * P( 高 | 不 会 )*P(51~60| 不 会 )*P( 西 | 不 会 =(4/10)*(3/4)*(2/4) *(2/4)= 0.075 
说 明 如 下 : 


概率 条 件 计算 方式 计算 结果 


(会 下 两 的 个 数 ) / (全 部 个 娄 ) 


(高 气压 且 不 会 下 十 的 个 数 ) / 
会 3/4 


(湿度 51-60 且 不 会 下 雨 的 个 数 ) ”/ “(不 会 下 雨 的 个 数 ) 
(西风 且 不 会 下 雨 的 个 数 ) ”/ (不 会 下 雨 的 个 数 ) 
(不 会 ) * P( 高 不 会 ) 

P(51~60| 不 会)# (4/10)*(3/4)*(2/4) *(2/4) 0.075 

R 西 | 不 会 ) 


结论 :“ 会 下 雨 ”的 概率 为 0.02222， 小 于 “不 会 下 雨 ”的 概率 0.075， 所 以 朴素 贝 叶 斯 分 
类 预测 新 进 样本 “不 会 下 雨 ”。 


RunNaiveBayesBinary.py 程序 说 明 


我 们 已 经 使 用 Spark MLlib 创建 逻辑 回归 分 析 RunNaiveBayesBinary.py， 完 整 的 程序 代码 
可 参考 本 书 提供 的 范例 程序 。RunNaiveBayesBinary.py 程序 的 架构 与 我 们 第 13 章 介 绍 的 
RunDecisionTreeBinarypy 类 似 ， 读 者 可 以 参考 第 13 章 的 详细 说 明 。 下 面 仅 说 明 
RunSVMWithSGDBinary.py 重要 的 修改 部 分 。 
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人 RD) 导入 NaiveBayes 模块 ( 见 图 16-1) 


Simport sys 
from time import time 
import pandas as pd 


import matplotlib.pyplot as plt 
from pyspark impor SparkConf, SparkContext 导入 NaiveBayes 模块 


from pyspark.mllib.classification import NaiveBayes 


from pyspark.mllib.regression import LabeledPoint 

import numpy as np 

from pyspark.mllib.evaluation import BinaryClassificationMetrics 
from pyspark.mllib.feature import StandardScaler 


图 16-1 导入 NaiveBayes 模块 
B02 修改 PrepareData() 加 入 数据 标准 化 的 程序 代码 
我 们 将 把 StumbleUpon 数据 集运 用 于 朴素 贝 叶 斯 二 元 分 类 。 当 进行 贝 氏 二 元 分 类 时 ， 必 
须 对 数值 特征 (Numerical features) 字段 进行 标准 化 。 因 为 数值 特征 字段 单位 不 同 而 数字 差异 
很 大 ， 所 以 彼此 无 法 比较 。 这 时 就 要 使 用 标准 化 ， 让 数值 特征 字段 有 共同 的 标准 。 
修改 PrepareData()， 如 图 16-2 所 示 。 


Print " 夺 凑 化 之 后 
stdScaler = StandardScaler|withMean=False, withstH=True).fit(featureRDD) 


ScalerFeatureRDD=stdScaler.transform(featureRDD 
foriin ScalerFeatureRDD.first(): 加 入 数据 标准 化 withMean=false 
print (str(i)+ 7 
图 16-2 修改 PrepareData() 加 入 数据 标准 化 的 程序 代码 


上 述 程序 与 之 前 第 15.2 节 的 做 法 类 似 ， 自 行 参考 第 15.2 节 的 说 明 。 但 是 朴素 贝 叶 斯 二 元 
分 类 法 在 进行 数据 标准 化 时 ， 参 数 withMean 必须 设置 为 false。 


人 3 修改 convert float() 将 负数 转换 为 0 


因为 NaiveBayes 数值 特征 字段 一 定 要 大 于 0， 所 以 修改 convert_float0,， 加 入 下 述 命令 将 
负数 转换 为 0 ( 见 图 16-3 )。 


S def convert_float(x): NaiveBayes 数值 特征 字段 一 定 


要 大 于 0， 所 以 负数 转换 为 0 


return(0 if ret<0 else ret) 


16-3 ”将 负数 转换 为 0 
人 4 trainModel 训练 模型 
接 下 来 要 使 用 NaiveBayes.train 进行 朴素 贝 叶 斯 分 类 法 训练 ， 可 参考 图 16-4 进行 操作 。 


385 


寿 ， Python+Spark 2.0+Hadoop 机 器 学 习 与 大 数据 实战 


B *RunNaiveBayesBinary Hl 
deftrainEvaluateModel(trainData,validationDatalambdaParam): 


startTime =tim 
model |NaiveBayes.trainltrainData, lambdaParam) 


AUC = evaluateModel(model, valldatonDaia) 

duration = time() - startTime 

print “名 恰 评 寻 - 防 有 生 才 "+ \ 
用 -+strf lambdaparam) +*\ 
所 需 困 间 =*str(duration) + \ 
券 叶 AUC="+ str(AUC) 

return (AUC,duration, lambdaparamumodel) 


图 16-4 朴素 贝 叶 斯 分 类 法 训练 
在 NaiveBayes 必须 输入 下 列 参 数 : 


朴素 贝 叶 斯 分 类 法 训练 


| 


NaiveBayesModel = NaiveBayes .train(input, lambda) 


返回 NaiveBayesModel 
说 明 


Pa 输入 的 训练 数据 LabelPointRDD 
设置 ambda 参数 ,默认 值 为 10 


I05 parametersEval 函数 


输入 parametersEval 函数 ， 如 图 16-5 所 示 。 


RunNaiveBayesBinary 2 


def parametersEval(trainData, validationData): 
print( 理 训 局 mbaa 参 禾 朱 历 ) 

evalParameterftrainData, validationData, jam 站 

lambdaParamList=[1.0, 3.0, 5.0, 15.0, 25.0,30.0,35. 0, 40.0; ,45.0,50.0,60.0]) 


图 16-5 输入 parametersEval 函数 


在 这 里 评估 的 参数 是 lambda。 我 们 希望 得 知 不 同 的 参数 值 对 准确 率 的 影响 以 及 运行 所 需 
要 的 时 间 。 


运行 NaiveBayes.py 进行 参数 评估 


01 运行 外 部 工具 ( 见 图 16-6) 


2. 单 击 运行 外 部 
工具 图 标 


3. 可 以 选择 3 种 
的 模式 


3sparksubmlt standalone 


import sys = 
from tme/fnporume Extermal Tools Conrigurations 
import pfndas as pd organize rayorites.. 


atplotlib.pyplot 二 PE 
1. 单 击 要 运行 的 程序 


16-6 运行 外 部 工具 
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人 2 输入 参数 “-e”( 见 图 16-7 ) 


Variable input 


Please input avalue 


图 16-7 输入 参数 “-e” 


人 3 lambda 参数 评估 
从 图 16-8 可 以 看 到 lambda = 60 时 AUC 最 大 ， 不 过 差异 不 大 。lambda 越 大 ， 所 需 时 间 越 少 。 


图 16-8 lambda 参数 评估 


运行 训练 评估 并 找 出 最 好 的 参数 组 合 


接 下 来 ， 我 们 以 evaluateAllParameter 函数 训练 评估 3 种 参数 ， 希 望 找 出 最 好 的 参数 组 合 。 


Fo01 运行 外 部 工具 ( 见 图 16-9 ) 


jythenProject/RunNaiveBayesBinary py - Scalo IDE 


ee#"0 ES | 2. 单 击 运行 外 部 
工具 图 标 


Yi 写 四 国 价 人 儿 


vB pythonproject Import sys i 


» model from ti port time ernal Tools Configurations... y 
atsmadel rom time External Tools configurati 3. 可 以 选择 3 种 


» data import pfndas as pd Organize Favorites 
* goutput i .pyplot 3s PIt 让 上 
pp mport /hatplotlib.pyplot 强加 运行 的 模式 


图 16-9 运行 外 部 工具 
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人 2 输入 参数 “-a”( 见 图 16-10) 


Variable input 


Please input a value 


2. 单 击 OK 按钮 


图 16-10 输入 参数 “-a” 
全 D03 进行 训练 评估 并 找 出 最 佳 参 数组 合 ( 见 图 16-11 ) 


Dprobloms DI Tasks © console 3 


[<terminated> spark-submit [Program] /usr/local/spark/bin/spark-submit 
= 数据 准备 阶段 = 
开始 导入 数据 … 

共计 : 7395 项 


-一 - 所 有 参数 如 练 评估 找 出 最 好 的 参 笋 组 合 -一 -一 
训练 评估 : 使 用 参数 lambda=1.0 所 需 时 间 | 


训练 评估 : 使 用 参数 0 所 需 时 间 

训练 评估 : 使 用 参数 .0 所 需 时 间 =1.10607600212 结 果 AUl 

训练 评估 : 使 用 参数 .0 所 需 时 间 =1.21510195732 结果 AUC = 0.612605400006 
训练 评估 : 使 用 参数 .0 所 需 时 间 =1.19713115692 结 果 AUC = 0.613843023768 


训练 评估 : 使 用 参数 lambda=30.0 所 需 时 间 =1.04978084564 结 果 AUC = 0.613843023768 
训练 评估 : 使 用 参数 lambda=35.0 所 需 时 间 =0.75651717186 结 果 AUC = 0.613843023768 
训练 评估 : 使 用 参数 lambda=40.0 所 需 时 间 =1.07464718819 结 果 AUC = 0.613843023768 
训练 评估 : 使 用 参数 lambda=45.0 所 需 时 间 =1.06668586867 结 里 AUC = 0.613843023768 
训练 评估 : 使 用 参数 lambda=50.0 所 需 时 间 =0.786318063736 结 果 AUC = 0.613843023768 

纤 用 lambda=60.0 所 需 时 间 =0.667900085449 结果 AUC= 0.615080647531 


图 16-11 找 出 最 佳 参 数组 合 


修改 RunNaiveBayesBinary.py 


直接 使 用 最 佳 参数 进行 预测 


因为 训练 评估 比较 费时 ， 所 以 当 我 们 已 经 找 出 最 佳 参数 组 合 就 可 以 修改 
trainEvaluateModel 程序 为 最 佳 参数 组 合 。 下 次 要 进行 预测 时 ， 可 以 不 再 运行 训练 评估 ， 直 接 
使 用 最 佳 参 数 进行 预测 即 可 。 


修改 main 为 最 佳 参 数组 合 


可 以 修改 main 程序 ， 改 为 训练 评估 得 到 的 最 佳 参数 组 合 ， 如 图 16-12 所 示 。 
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if_name_ =="_main_ 
print( "RunNaiveBayesBinary") 
sc=CreateSparkContext() 
并 据 性 备 所 民 ==") 
(trainData, validationData, testData, categoriesMap) =PrepareData(sc) 
trainData.persist(); alidatonData， persist(); WestDat, persist() 


(AUC,duration, lambdaParam,model)=\ 
trainEvaluateModel(trainData, validationData|[60.0)| 一 修改 为 最 佳 参数 组 合 

if (len(sys.argv) == 2) and (sys.argv[1]=="-e"): 

parametersEval(trainData, validationData) 
elif (len(sys.argv) == 2) and (sys.argv[1]=="-a"): 

Print("---- 记 广 参 堪 加 纤 池 名 共 届 展 好 的 参 烧 鬼 他 -一 一 一 ) 

model=evalAllParameter(trainData, validationData, 

[1.0, 3.0, 5.0, 15.0, 25.0,30.0,35.0,40.0,45.0,50.0,60.0]) 


16-12 ”修改 main 为 最 佳 参数 组 合 
G02 开始 运行 程序 ( 见 图 16-13 ) 


‘ython Project/RunNaive BayesBinary.py - Scala IDE 2. 单 击 运行 外 部 


工具 图 标 


Li 加 
Package Explorer Submityarnclient 


2spark-submit Standalone 


vB pythonproject 


> ALSmodel External Tools configuratiom. 本 
» Bdata Import pindas as pd Drganize Favorites... 3. 可 以 选择 3 种 
* © output importfnatplotlib.pyplot Spl 和 > 

Pp PP PpyPp! P 运 行 的 模式 


图 16-13 开始 运行 程序 


G03 不 输入 参数 ( 见 图 16-14) 


Please input a value 


1. 不 要 输入 参数 


Cancel 


图 16-14 不 输入 参数 


个 F304 运行 结果 


运行 结果 如 图 16-15 所 示 。 可 以 看 到 程序 训练 完成 后 就 可 以 进行 预测 。 因 为 不 需要 进行 训 
练 评 估 ， 所 以 运行 所 需 的 时 间 比 较 少 。 
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国 problems| 辐 人 让 目 console 3 Seard 


<terminated> spark-submit [program] /usr/local/spark/bin/spark-submit 

RunNaiveBayesBinary 

16/08/17 01:36:09 WARN NativeCodeLoader: Unable to load native-hadoop library for your platfo 
ol] 


开始 导入 数据 … 
共计 : 7395 项 
标准 化 之 前 : 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.789131, 2.055555556, g 


2. 训练 评估 阶段 


共计 : 3171 项 


网 址 : http://www.lynnskitchenadventures.com /04/homemade-enchilada-sauce.html 
==> 预 测 :1.0 说 明 : 长 青 网 页 (evergreen) 


网 址 : http://lolpics.se/18552-stun-grenade-ar 
==> 预 测 :1.0 说 明 : 长 青 网 页 (evergreen) 


图 16-15 运行 结果 


(1) 数据 准备 阶段 :显示 导入 项 数 以 及 trainData、validationData、testData 项 数 。 

(2) 训练 评估 阶段 ， 找 出 最 佳 参 数组 合 lambda = 60、AUC = 0.65。 

(3) 测试 阶段 :使 用 测试 数据 再 测试 模型 ，AUC 大 约 为 0.61。 与 训练 阶段 差异 不 大 ， 确 
认 没 有 overfitting 的 问题 。 

(4) 预测 阶段 : 使 用 test.tsv 预测 是 长 青 网 页 (evergreen) 还 是 暂时 性 网 页 (ephemeral) 。 
预测 的 数据 会 显示 出 网 址 ， 可 以 用 浏览 器 查看 一 下 是 否 准 确 。 


结论 


本 章 介绍 了 Spark MLlib 朴素 贝 叶 斯 二 元 分 类 的 基本 原理 ， 完 成 了 数据 准备 、 训 练 模型 、 
预测 网 页 是 暂时 性 还 是 长 青 ， 并 调 校 参数 找 出 最 佳 参数 组 合 ， 提 高 预测 准确 度 。 下 一 章 我 们 将 
介绍 决策 树 多 元 分 类 。 
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决策 树 多 元 分 类 


本 章 将 介绍 决策 树 多 元 分 类 (DecisionTree Multi Class 
Classification)， 预 测 在 不 同 条 件 下 《〈Elevation 〈 海 拔 入 Aspect 
(方位 )、Slope〈 和 斜率 )、 水 源 的 垂直 距离 、 匾 野 分 类 、 水 源 
的 水 平 距离 、 土 壤 分 类 等 ) 适合 种 植 的 植被 ， 并 通过 训练 评估 
找 出 最 佳 参数 组 合 ， 提 高 预测 准确 度 。 
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“森林 覆盖 植被 ”大 数据 问题 分 析 场景 


森林 的 管理 单位 希望 能 运用 大 数据 分 析 ， 帮 助 他 们 可 以 更 节省 人 力 、 经 费 来 管理 森林 ， 以 
提高 森林 覆盖 率 。 因 此 找 来 了 大 数据 分 析 师 ， 与 森林 管理 专员 组 成 一 个 团队 ,负责 “森林 覆盖 
植被 ”大 数据 项 目 。 


> 找 出 问题 

“ 问 对 问题 ”是 解决 问题 的 第 一 步 。 大 数据 分 析 师 与 森林 管理 专员 讨论 后 发 现 , 在 一 处 森 
林 中 有 各 种 树种 ,例如 热带 、 针 叶 林 等 ,每 一 块 土地 都 有 它 适合 生长 的 植被 。 如 果 能 够 预测 哪 
些 土地 适合 生长 哪些 植被 , 就 能 在 适合 的 土地 种 植 适当 的 植被 ， 这 样 就 可 以 节省 人 力 、 经费 而 
达到 事半功倍 的 效果 ， 森 林 也 可 以 长 得 更 好 。 

> 设计 解决 方案 模型 

大 数据 分 析 师 与 森林 管理 专员 讨论 哪些 因素 可 能 会 影响 适合 生长 的 植被 ， 经 过 讨论 结 
果 认 为 : Elevation (海拔 )、Aspect (方位 )、Slope〈 和 斜率 )、 水 源 的 垂直 距离 、 匾 野 分 类 、 水 
源 的 水 平 距离 、 土 壤 分 类 等 都 会 影响 适合 生长 的 植被 。 因 此 ,大 数据 分 析 师 整理 数据 如 表 17-1 
所 示 。 


表 17-1 数据 字段 说 明 
字段 说 明 


feature 特征 Elevation 海拔) 、Aspect (方位 ) 、Slope 斜率) 、 水 源 的 垂直 距离 、 荒 野 分 
类 、 水 源 的 水 平 距离 、 土 壤 分 类 等 


Cover Type 森林 覆盖 分 类 : 
"1 一 一 Spruce/Fir 
"2 一 一 Lodgepole Pine 
label 标签 "3 一 一 Ponderosa Pine 
〈 预 测 目标 "4 一 一 Cottonwood/Willow 
*。 5 一 一 Aspen 


*，6 一 一 Douglas-fir 
“7 一 一 Krummholz 


> ”搜集 数据 


这 些 数据 的 搜集 可 能 需要 花费 很 多 时 间 和 人 力 ,不 过 通常 森林 管理 单位 已 经 有 长 期 田野 调 
查 的 数据 ， 并 且 借 助 现代 科技 ， 例 如 无 人 机 空 拍 、 卫 星 图 等 ， 可 以 搜集 这 些 数据 。 


> 分 析 数 据 
大 数据 分 析 师 决定 使 用 决策 树 多 元 分 类 (DecisionTree Multi-Class Classification ) 来 创建 
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模型 、 训 练 、 评 估 、 预 测 数据 。 本 章 将 详细 介绍 如 何 进行 决策 树 多 元 分 类 分 析 。 

> ”其 他 类 似 的 分 类 应 用 

大 家 可 能 会 觉得 这 个 主题 “森林 覆盖 植被 ”除了 森林 管理 的 专业 外 , 其 他 日 常生 活 可 能 应 
用 不 到 。 事实 上 这 种 类 似 的 应 用 也 很 广泛 ,例如 可 以 研究 什么 样 的 地 点 适合 开设 什么 类 型 的 店 
面 ， 我 们 可 以 搜集 相关 数据 。 


@ feature 特征 : 距离 快捷 公交 站 的 距离 、 距 离 大 学 的 距离 、 距 离 中 学 的 距离 、 该 地 平 
均 年 收入 、 马 路 宽度 、 附 近 人 口 数 、 门 口 每 小 时 人 流量 ….… 

@ label 标签 ( 预测 目标 ) : 配合 实际 调查 该 地 店面 的 类 型 ， 已 经 3 年 以 上 并 且 赚 钱 的 
店面 类 型 (代表 该 地 适合 这 种 类 型 的 店面 ) 。 


有 了 这 些 数据 就 可 以 创建 模型 、 训 练 、 评 估 ， 预 测 该 地 适合 开设 的 店面 类 型 。 


UCI Covertype 数据 集 介绍 


人 IN Machine Learning Repository 数据 库 


Machine Learning Repository 数据 库 是 加 州 大 学 尔 湾 分 校 (University of California Irvine) 
提供 的 用 于 研究 机 器 学 习 的 数据 库 。 数 据 库 数 量 与 种 类 繁多 ， 还 在 不 断 增 加 。 它 的 网 址 为 
http://archive.ics.uci.edu/ml/。 


ER2 UCI Covertype 数据 集 


其 中 有 Covertype 数据 集 ， 网 址 为 https://archive.ics.uci.edu/ml/datasets/Covertype。 
Covertype Data Set 森林 覆 立 植被 数据 集 是 在 一 处 森林 中 有 各 种 树种 植被 ， 例 如 热带 、 针 
叶 林 等 。 图 17-1 为 该 数据 集 在 网 页 上 的 下 载 链接 。 


UCI XA 


Machine Learning Repository 


单 击 Data Folder 


Er 


17-1 VCI Covertype 数据 集 
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人 3 查看 Data Folder ( 见 图 17-2 ) 


Index of /ml/machine-learning-databases/covtype 


Name Last modified Size Description 
4 Parent Directory 入 


2231-Aug-1998 14:01 11M 
fi 18-Apr-2010 00:01 14K 下 载 这 个 文件 
ol Coype nfo 31-Aug-1998 14:01 4 7K 


Apache/2.2.15 (CenmtOS) Server at archive ics.uci.edu Port 80 


17-2 ”查看 Data Folder 


下 载 与 查看 数据 


To01 下 载 /解压 缩 文件 
在 “终端 ”程序 中 输入 下 列 命 令 : 
> 切换 到 项 目 数据 目录 


cd ~/workspace/Classification/data 


> 下 载 covtype.data.gz 
wget https://archive.ics.uci .edu/ml/machine-learning-databases/covtype/covtype.data.gz 


> 解压 缩 到 当前 目录 
gzip -d covtype.data.gz 


运行 后 屏幕 显示 界面 如 图 17-3 所 示 。 


hduser@master ~/workspace/Classification/data 

hduser@master:~$ cd ~/workspace/Classification/data 
hduser@master:~/workspace/Classification/data$ wget https://archive.ics.uct.edu/| 
Iml /machine-learning-databases/covtype/covtype.data.gz 
--2616-65-18 14:47:34-- https://archive.ics.uci.edu/ml/machine-learning-databas| 
les/covtype/covtype.data.gz 

解析 主机 archive.ics.uci.edu (archive.ics.uci.edu)... 128.195.19.249 
【正在 连接 archive.ics.uci.edu (archive.ics.uci.edu)|128.195.16.249|:443... 已 连接 | 


已 发 出 nrTe 请 求 ， 正在 等 待 回应 .. .zee ok 
长 度 : 11246767 (11M) [application/x-gzip] 
正在 保存 至 : “covtype .data.gz” 


leex[==: 


=>] 11,246,767 22.1KB/s 用 时 sm 52s| 


zel6-es-18 14:53:30 (31.2 KB/s) - 已 保存 “covtype.data.gz” [11249797/11249707]) 


hduser@naster :~/workspace/Classification/data$ gzip -d covtype.data.gz 


图 17-3 下 载 /解压 缩 文件 
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B02 设置 “终端 ”程序 的 显示 宽度 


因为 covtype.data 字段 很 多 ，“ 终 端 ” 程 序 默 认 的 字段 宽度 为 80x24， 查 看 covtype.data 
时 会 换行 ， 不 容易 阅读 ， 所 以 将 “终端 ”程序 设置 为 132x43。 设 置 步骤 如 图 17-4 所 示 。 


Tr . 1. 单 击 菜单 “终端 ” 


hduser@master ry 


n/machine- Learning-databas 
-2616-95-18 14:47:34-- ht /nachine -Learning-databas 
es/covtype/covtype. data.gz 

正在 解析 主机 archive.ics.u | 128.195.16.249 

正在 连接 archtve .ics.uci.et .2491:: 


长 度 : 11240797 (11M) [appi 4 选择 132X43 
正在 保存 至 : "covtype.data 


eex[ ] 11,246,767 22.1KB/s 用 时 5m 52s 


ea6-es-18 14:53:39 (31.2 kB1s) - 已 保存 “covtype.data.gz”[11249767111246797]) 


hduser@master :~/workspace/classtftcatton/datas Qztp -d covtype.data.gz 
hduser@master:-/workspace/Classification/data5 


17-4 设置 “终端 ”程序 的 显示 宽度 
人 03 查看 covtype.data 数据 
使 用 下 述 命令 查看 covtype.data: 


cat covtype.datalmore 


运行 后 屏幕 显示 界面 如 图 17-5 所 示 。 


图 17-5 查看 covtype data 数据 


我 们 可 以 看 到 最 后 一 个 字段 是 label 标签 字段 ， 其 余 是 feature 特征 字段 。 各 字段 说 明 如 
表 17-2 所 示 。 
表 17-2 covtype.data 中 的 字段 


字段 分 类 


数值 字段 : 例如 Elevation (海拔 ) 、Aspect (方位 ) 、Slope 
numerical features (斜率 ) 、Vertical _ Distance To_Hydrology〈 距 离 水 源 的 
数值 特征 字段 垂直 距离 ) 、Horizontal Distance To_ Roadways (距离 水 
源 的 水 平 距离 ) 、Hillshade 9am (9 点 时 阴影 ) 等 
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( 续 表 ) 
字段 
Wilderness Areas 荒野 分 类 字段 : 
"1 一 一 Rawah Wilderness Area 
"2 一 一 Neota Wilderness Area 
字段 1114 categorical features * 3——Comanche Peak Wilderness Area 


分 类 特征 字段 “4 一 一 Cache la Poudre Wilderness Area 
已 经 编码 成 OneHotEncoding。 
例如 : 如 果 是 Neota Wilderness Area， 就 为 0,1,0,0; 如 果 
是 Comanche Peak Wildemess Area， 就 为 0,0,1,0 


字段 15.54 categorical features Soil Types 土壤 分 类 
分 类 特征 字段 已 经 编码 成 OneHotEncoding 


Cover Type 森林 覆盖 分 类 : 

"1 一 一 Spruce/Fir 

"2 一 一 Lodgepole Pine 
label "3 一 一 Ponderosa Pine 
标签 字段 〈 预 测 目标 "4 一 一 Cottonwood/Willow 

* 5——Aspen 

*» 6——Douglas-fir 

"7 一 一 Krummholz 


字段 55 


可 以 看 到 上 述 categorical features 分 类 特征 字段 (荒野 分 类 、 土 壤 分 类 ) 都 已 经 是 编码 成 
OneHotEncoding 的 数值 字段 ， 所 以 不 需要 自己 转换 为 数值 字段 。 


修改 PrepareData() 数据 准备 


决策 树 多 元 分 析 RunDecisionTreeMulti.py 完整 的 程序 代码 请 参考 本 书 范例 程序 。 决 策 树 
多 元 分 类 程序 基本 架构 与 第 13 章 介绍 的 决策 树 二 元 分 类 RunDecisionTreeBinary.py 类 似 ， 
读者 可 以 参考 第 13 章 的 详细 说 明 。 本 章 仅 说 明 RunDecisionTreeMulti.py 重要 的 修改 部 分 。 


人 1) 修改 PrepareData() 数据 准备 
PrepareData() 数据 准备 主要 分 为 以 下 3 个 步骤 : 


def PrepareData(sc) : 


#--- -1 导入 并 转换 数据 ------------- 
#=—= -2 .建立 训练 评估 所 需 数据 RDD[LabeledPoint]------------- 
和 3 以 随机 方式 将 数据 分 为 3 部 分 并 返回 ------------- 
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CT02 导入 并 转换 数据 


输入 下 列 程序 代码 : 使 用 sc.textFile 读 取 covtype.data， 然 后 rawData 使 用 map 与 
lambda 语句 传 入 x 作为 参数 ， 调 用 x.split(",")， 以 逗号 “,” 分 隔 字段 ， 提 取 每 一 个 字段 。 


人 3 建立 训练 评估 所 需 数据 RDD[LabeledPoint] 


建立 LabelPoint， 由 标签 字段 与 特征 字段 组 成 
@ ”标签 字段 : 调用 extract_label(r) 获取 标签 字段 ， 步 又 4 会 介绍 。 
@ 特征 字段 : extract_features(r,len(r) - 1)， 获 取 除 了 最 后 字段 的 所 有 字段 ， 步 又 5 会 介 
绍 。 
《6 extract label 0 提取 label 字段 


编写 extract_label 0) 程序 来 提取 label 字段 : 


以 上 程序 代码 说 明 如 下 : 


(1) 先 使 用 label=(record[-1]) 取 出 最 后 一 个 字段 ， 就 是 label 标签 字段 。 
(2) 再 使 用 return float(label)-1 返回 label 转换 为 float 后 再 减 1 的 结果 。 


为 何 label 值 要 减 1 呢 ? 这 是 因为 要 执行 DecisionTree.trainClassifier 训练 ， 规 定 label 
一 定 是 从 0 开始 的 数值 。 但 是 原本 label 的 值 范围 是 1~7 (1 一 一 Spruce/Fir、 2 一 一 Lodgepole 
Pine、3 一 一 Ponderosa Pine、4 一 一 Cottonwood/Willow、5 一 一 Aspen、6 一 一 Douglas-fir、7 一 一 
Krummholz) ， 所 以 必须 使 用 “float(label)-1”， 使 label 值 范围 变 成 0~6。 


D05 extract_feature () 提取 特征 字段 
以 下 程序 代码 extract_feature() 用 来 提取 特征 字段: 


以 上 程序 代码 说 明 如 下 : 


(1) 因为 我 们 是 读 取 文本 文件 ， 数 据 类 型 是 string， 所 以 每 一 个 字段 必须 转换 为 foat。 
(2) [convert_float(field) for field in record[0: featureEnd]] 会 从 第 0 字段 到 featureEnd 字 
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段 ， 执 行 convert_float 函数 ， 转 换 为 float。 

(3) 以 上 featureEnd 是 参数 ， 当 我 们 调用 extract_features 时 会 传 入 len(D-1， 也 就 是 会 
读 取 到 倒数 第 2 个 字段 。 

(4) 最 后 将 转换 后 的 结果 存 入 numericalFeatures 并 返回 。 


CTI58 以 随机 方式 将 数据 分 为 3 个 部 分 并 返回 


以 下 程序 代码 以 .randomSplit([8，1，1]) 按照 8:1:1 的 比例 以 随机 方式 分 为 3 个 部 分 
(trainData, validationData, testData) 并 返回 数据 。 


修改 trainModel 训练 模型 程序 。 


Flo1 修改 trainModel 训练 模型 
在 决策 树 多 元 分 类 中 ， 我 们 的 label 标签 字段 有 7 种 可 能 值 ， 所 以 分 类 数目 numClasses 
设置 为 7， 并 且 使 用 accuracy 方式 评估 ， 如 图 17-6 所 示 。 


deftralnEvaluateModel(trainData,validationData, 
impurityParm, maxDepthParm, maxBinsParm): 


numClasses 原本 为 2 个 修改 为 7 


startTime = time() 


model = DecisionTree.trainClassifier(trainDa 
numClasse: ategoricalFeaturesInfo={}, \ 


impurity=impurityParm, 
maxDepth=maxDepthParm, 
maxBins=maxBinsParm) 
Y= evaluateModel(model, validationData) 
duration =time() -startTime 
print “ 训 娠 序 苔 - 结 且 参 并 "+ 
“impurityParm= %s“%impurityParm+ 
"maxDepthParm= %s"%maxDepthparm+ \ 
" maxBinsParm = %d."%maxBinsParm + 
“ 历 寺 1 了 癌 =%d"9%duration + \ 
" 老 壬 accuracy = %f" 9accuracy| 


return (accuracy, duration, impurityParm, maxDepthParm, maxBinsParm,model) 


17-6 ”修改 trainModel 训练 模型 


改 为 使 用 accuracy 方式 评估 
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人 修改 evaluateModel 评估 模型 


在 多 元 分 类 (Multiclass Classification) 评估 模型 中 ， 我 们 使 用 MulticlassMetrics 先 建 立 
Metrics， 然 后 使 用 .accuracy 方法 计算 准确 率 ， 程 序 如 图 17-7 所 示 。 


RunDecisionTreeMulti 3 
def evaluateModel(model, validationData): 
score = model.predict(validationData.map(lambda p: p.features)) 
scoreAndLabels=score.zip(validationData.map(lambda p: p.label)) 


metrics = MulticlassMetrics(scoreAndLabels) 
accuracy = metrics.accuracy 改 为 MulticlassMetrics 


return( accuracy) 


图 17-7 修改 evaluateModel 评估 模型 
人 3 修改 evaluateParameter 绘图 程序 代码 


在 多 元 分 类 (Multiclass Classification ) 中 ， 我 们 使 用 accuracy 评估 模型 的 准确 率 ， 所 以 
修改 evaluateParameter 绘图 程序 代码 ， 可 参考 图 17-8 进行 操作 。 


def evalparameter(trainData, validationData, evaparm,impurityList, maxDepthList maxBinsList) 
metrics = [trainEvaluateModel(trainData, validationData, impurity,numlIter, maxBins ) 
for RU in impurityList for numIter in maxDepthList for maxBins in maxBinsList ] 


if evaparm=="impurity": 
IndexList= pungtuat 
elif evaparm== "max 
indexLismaxDepthust ] 
elif evaparm=="maxBins 
IndexList=maxBinsList[:] 
df = pd.DataFrame(metrics, 
columns=| : 


del]) 
showchart(dfevaparm| 3 


图 17-8 修改 evaluateParameter 绘图 程序 代码 


使 用 训练 完成 的 模型 预测 数据 


人 1) 输入 PredictData 程序 代码 
PredictData() 进行 预测 主要 分 为 以 下 3 个 步骤 : 


def PrepareData(sc) : 
-1 。 导 入 并 转换 数据 一 
---2。 建立 预测 所 需 数据 RDD[LabeledPoint]------------- 
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以 上 第 1、2 步 与 PrepareData() 相同 ， 可 自行 参考 第 17.4 节 , 第 3 步 进行 预测 并 显示 
结果 〈 将 在 步骤 2 进行 介绍 ) 。 


人 2 进行 预测 并 显示 结果 


进行 预测 并 显示 结果 ， 程 序 代码 如 下 : 


以 上 程序 代码 的 详细 说 明 如 表 17-3 所 示 。 
表 17-3 ”程序 代码 说 明 
程序 代码 说 明 


predict = model.predict(lp.features) 介 介 作 全 人 A ee 


label=Ip.label 取得 标签 字段 
features=lp.features 取得 特征 字段 

result = ("” 正确 "if(label == predict) else " 错误 ") | 判断 预测 是 否 正确 
加 打印 特征 字段 、 实 际 与 结果 
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运行 RunDecisionTreeMulti.py 
进行 参数 评估 


301 运行 外 部 工具 ( 见 图 17-9 ) 


>ythonProject/RunDecisionTreeMuttLpy - Scala IDE 
[加 三 aavece| 2. 单 击 图 标 
15park-submit 


2spark-submit yarn-client 
3spark-submit Standalone 


v & pythonproject 


RunAs 
* 6 ALSmodel from tifne import time External Tools Confi 
igurations. pg 
* © data imporf pandas as pd Organize Favorites. 3, 单 击 要 运行 的 
* 全 output matnlatlih_nvnlat AeBIE 模式 
异 式 


1. 单 击 要 运行 的 程序 
图 17-9 运行 外 部 工具 
《2 输入 参数 “-e”( 见 图 17-10) 


Variable input 


Please input a value 


= 


2. 单 击 OK 按钮 


图 17-10 输入 参数 “-e” 


人 3 impurity 参数 评估 


直方 图 代表 accuracy， 折 线 图 代表 时 间 。 从 图 17-11 可 以 看 到 gini 准确 度 比 entropy 好 
- 些 ， 但 是 并 没有 太 大 差别 。 不 过 ， 运 行 时 间 gini 所 需 的 时 间 是 entropy 的 4 倍 。 
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全 QQ@O 寺 可 可 国志 


图 17-11 ”impurity 参数 评估 
人 ER4 maxDepth 参数 评估 
从 图 17-12 可 以 看 到 maxDepth= 25 时 accuracy 最 高 ， maxDepth 越 大 ， 所 需 的 时 间 越 多 。 


图 17-12 maxDepth 参数 评估 


maxBins 参数 评估 
从 图 17-13 可 以 看 到 maxBins = 200 时 accuracy 最 高 ，maxBins 越 大 ， 所 需 的 时 间 越 多 。 
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i accuracy 


图 17-13 maxBins 参数 评估 


运行 RunDecisionTreeMulti.p 


py 
训练 评估 参数 并 找 出 最 好 的 参数 组 合 


接 下 来 , 我 们 以 evaluateAllParameter 函数 训练 评估 3 种 参数 ,希望 找 出 最 好 的 参数 
组 合 。 


E01) 输入 参数 “-a”( 见 图 17-14) 


Varlable Input 


Please input a value 


1. 输入 参数 “-a 
2. 单 击 OK 按钮 


Cancel 


图 17-14 输入 参数 “-a” 


人 进行 训练 评估 找 出 最 佳 参 数组 合 ( 见 图 17-15 ) 
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ark-submit Pro in/spark-submit 
数据 准备 阶段 
开始 导入 数据 - 

共计 : 581012 项 

建立 训练 评估 所 需 数据 ..… 


将 数据 分 trainData:465031 validationData:58402 testDa 多 


:57579 


训练 评估 ; 使 用 参数 impurityParm= gini par 3 maxBinsParm = 3. 所 需 时 间 =34 结果 accuracy = 0.661330 
训练 评估 ; 使 用 参数 impurityParm= gini maxDepthParm= 3 maxBinsParm = 5. 所 需 时 间 =7 结果 accuracy = 0.677768 
训练 评估 ; 使 用 参数 impurityParm= gini maxDepthParm= 3 maxBinsParm = 10. 所 需 时 间 =7 结果 accuracy = 0.672066 


训练 评估 : 使 用 参数 impurityParm= entropy maxDepthParm= 15 maxBinsParm = 10. 所 需 时 间 =13 结果 accuracy = 0.842933 
训练 评估 : 使 用 参数 impurityparm= entropy maxDepthparm= 15 maxBinsParm = 50. 所 需 时 间 =38 结果 accuracy = 0.858378 


建立 训练 评估 所 需 数据 RDD... 
土地 条 件 ; 酒 氢 :2596.0 方位 : 
土地 条 件 : 海拔 :2590.0 方位 :56.0 圭 率 :2.0 水 源 垩 直 距 离 :212.0 水 源 水 平 距 离 :-6.0 9 息 时 阴影 :390. 
土地 条 件 ; 海拔 :2804.0 方位 :139.0 斜率 :9.0 水 产 垂直 距离 :268.0 水 源 水 平 距 次 :65.0 9 点 时 阴影 ;31 


17-15” 找 出 最 佳 参数 组 合 


0 结果 :正确 
预测 :1.0 实际 ;1.0 结果 ;正确 


运行 RunDecisionTreeMulti.py 


不 进行 训练 评估 


因为 训练 评估 比较 费时 ， 所 以 当 我 们 已 经 找 出 最 佳 参数 组 合 时 就 可 以 修改 
trainEvaluateModel 程序 为 最 佳 参 数组 合 。 下 次 要 进行 预测 时 ， 可 以 不 再 运 和 行 训练 评估 ， 直接 
使 用 最 佳 参数 进行 预测 即 可 。 


人 J01 修改 trainEvaluateModel 为 最 佳 参数 组 合 ( 见 图 17-16 ) 


@ *RunDecisionTreeMulti 3 
if_name_ _1 
print("RunDecisionTreeMulti") 
sc=CreateSparkContext() 


print( 懂 楷 座 壳 礁 届 ===== 
(trainData, validationData, testData) =PrepareData(sc) 修改 为 最 佳 参数 组 合 
trainData.persist(); validationData.persist(); testData.persist() 


"========= 祁 颖 邮 双 甩 民 =============== 


if (len(sys.argv) == 2) and (sys.argv[1 
parametersEval(trainData, validationData 


图 17-16 ”修改 trainEvaluateModel 为 最 佳 参数 组 合 
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人 2 运行 外 部 工具 ( 见 图 17-17 ) 


>ythonProject/RunDecisionTreeMuttLpy - Scala IDE 


1spark-submit 
2spark-submit yarn-client 
日 把 3spark-submit Standalone 


歧 Package Explorer 器 


v 多 Pythonproject RunAs 
* 全 ALSmodel ynei i External Tools Configurations.. 


* 会 data Organize Favorites… 


3. 单 击 要 运行 的 
* 全 output natnlarlih acn 模式 


图 17-17 运行 外 部 工具 


03 不 输入 参数 ( 见 图 17-18) 


Variable input 


Please input a value 


Cancel 


图 17-18 不 输入 参数 


04 运行 结果 
运行 结果 如 图 17-19 所 示 。 可 以 看 到 程序 训练 
练 评 估 ， 所 以 运行 所 需 的 时 间 比 较 少 。 


网 problems| 因 二 司 © console x Seardh mx 
<terminated> spark-submit [Program] /usr/local/spark/bin/spark-submit 


成 后 就 可 以 进行 预测 。 因 为 不 需要 进行 训 


开始 导入 数据 … 


共计 : 581012 项 
建立 训练 评估 所 需 数据 … 2. 训练 评估 阶段 
将 数据 分 trainData:465013 validationData:58091 testData:57' 


(4.0,[2596.0,51.0,3.0,258.0,0.0,510.0,221.0,232.0,1. ,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0. 
训练 评估 : 使 用 参数 impurityParm- entropy maxDepthparm- 15 maxBinsparm - 50. 所 需 时 间 -82 结果 accuracy - 0.856501 

试 阶段 
使 用 test Data 测 试 最 佳 模型 ， 结 果 accuracy:0.856962768529 
i = 预测 数据 == 
81012 项 

建立 训练 评估 所 需 数据 RDD.… 
土地 条 件 : 海拔 :2596.0 方位 :51.0 妊 亩 :3.0 水 源 垂 直下 敲 :258.0 水 源 水 平 距 事 :0.0 9 点 时 阴影 :510.0. 
土地 条 件 : 海拔 :2590.0 方位 :56.0 笠 率 :2.0 水 源 垂 直 瑟 高 :212.0 水 源 水 平息 离 :-6.0 9 息 时 阴影 :390. 
土地 条 件 : 海拔 :2804.0 方位 :139.0 斜率 :9.0 水 源 垂直 距离 :268.0 水 源 水 平 距 离 :65.0 9 点 时 阴影 :3180. 
土地 条 件 : 海拔 :2785.0 方位 :155.0 斜率 :18.0 水 源 到 直 距 离 :242.0 水 源 水 平 距 商 :118.0 9 点 时 阴影 :3090. 


图 17-19 运行 结果 


= 


现 测 :4.0 实际 :4.0 若 果 : 正 确 

预测 :4.0 实际 ;4.0 结果 ;正确 

预测 :1.0 实际 ;1.0 结果 :正确 
预测 :1.0 实际 :1.0 结 果 : 正 确 


(1) 数据 准备 阶段 : 显示 导入 项 数 以 及 trainData validationData testData 项 数 。 
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(2) 训练 评估 阶段 : 进行 训练 评估 ， 找 出 最 佳 参 数组 合 ，impurityParm = entropy， 
maxDepthParm= 15，maxBinsParm = 50，accuracy 大 约 为 0.85。 

(3) 测试 阶段 :使 用 测试 数据 再 测试 模型 ，accuracy 大 约 为 0.85， 与 训练 阶段 差异 不 大 ， 
确认 没有 overfitting 的 问题 。 

(4) 预测 阶段 : 使 用 covtype.data 预测 ， 显 示 在 不 同 的 土地 条 件 下 预测 的 值 与 实际 的 值 ， 
并 显示 预测 结果 是 否 准确 。 


17.10 结论 


本 章 介绍 了 Spark MLlib 决策 树 多 元 分 类 ， 完 成 了 数据 准备 、 训 练 模型 ， 并 通过 训练 评 
估 找 出 了 最 佳 参 数组 合 ， 提 高 预测 准确 度 。 下 一 章 我 们 将 介绍 决策 树 回归 分 析 。 
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决策 树 回 上 分 本 


Bike Sharing 共享 单车 ) 系统 就 像 城市 的 自行 车 出 租 系 
统 ， 可 以 在 某 一 地 点 租借 ， 在 另 一 个 地 点 归还 。 本 章 将 介绍 决 
策 树 回归 分 析 (DecisionTree Regression)， 预 测 在 不 同 的 情况 
(季节 、 月 份 、 时 间 、 假 日 、 星 期 、 工 作 日 、 天 气 、 温 度 、 体 
感 温度 、 湿 度 、 风 速 ) 下 ， 每 一 小 时 的 租用 数量 。 
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类 到 | Bike sharing 大 数据 问题 分 析 


Bike Sharing (共享 单车 ) 系统 的 管理 层 希望 能 运用 大 数据 分 析 提供 更 好 的 服务 ， 因 此 找 来 了 
大 数据 分 析 师 ， 与 公司 实际 负责 运营 的 工作 人 员 组 成 一 个 团队 ， 负 责 Bike Sharing 大 数据 项 目 。 

> 找 出 问题 

“ 问 对 间 题 ”是 解决 问题 的 第 一 步 。 大 数据 分 析 师 与 运营 人 员 讨论 后 发 现 , 运营 人 员 面临 
-个 问题 ， 在 不 同 的 天 气 情况 下 ,租用 的 数量 差异 很 大 。 这 就 造成 了 困扰， 运营 人 员 常 常 无 法 
提供 足够 数量 的 自行 车 ,或 是 不 知道 何 时 进行 维修 工作 。 因 此 ,他 们 希望 能 够 预测 在 某 种 天 气 
情况 下 的 自行 车 租用 数量 。 

预知 自行 车 租用 数量 的 好 处 如 下 


@ ”自行 车 需要 维修 时 ， 可 以 选择 在 自行 车 租用 数量 较 少 的 时 段 。 
@ 在 自行 车 租用 数量 大 的 时 间 ， 可 以 提供 更 多 的 自行 车 ， 增 加 营业 额 。 


> 设计 解决 方案 模型 
大 数据 分 析 师 与 Bike Sharing (共享 单车 ) 有 实际 工作 经 验 的 人 员 讨 论 哪些 因素 可 能 影响 
自行 车 租用 的 数量 ， 经 过 讨论 结果 认为 季节 、 月 份 、 时 间 (0~23)、 假 日 、 星 期 、 工 作 日 、 天 
气 、 温 度 、 体 感 温度 、 湿 度 、 风 速 都 会 影响 自行 车 租借 的 数量 。 因 此 大 数据 分 析 师 整理 出 表 
18-1 所 示 的 数据 。 
表 18-1 共享 单车 数据 字段 


字段 


季节 、 月 份 、 时 间 〈0-23) 、 假 日 、 星 期 、 工 作 日 、 天 气 、 温 度 、 体 感 温度 、 湿 


feature 特征 度 、 风速 


label 标签 (预测 目标 ) 每 一 小 时 的 租用 数量 


> ”搜集 数据 
@ 每 小 时 自行 车 租用 数量 可 以 在 Bike Sharing (共享 单车 ) 公司 的 计算 机 系统 查询 。 
@ 季节、 月份、 时 间 (0~23) 、 假 日 、 星 期 、 工 作 日 ， 程 序 系统 可 以 由 每 小 时 租用 数 


量 自动 算出 。 

@ 。 天气、 温度 、 体 感 温度 、 湿 度 、 风 速 这 些 天 气 的 数据 可 以 与 提供 天 气 历史 数据 的 公 
司 合作 来 获得 。 

> 分 析 数 据 


大 数据 分 析 师 决定 使 用 决策 树 回 归 分 析 来 创建 模型 、 训 练 、 评 估 、 预 测 数据 。 本 章 将 详细 
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介绍 如 何 进 行 决策 树 回 归 分 析 。 


> ”其 他 根据 天 气 的 预测 应 用 

事实 上 , 这 种 根据 天 气 预 测 的 应 用 很 广泛 。 例 如 , 小 连锁 超市 可 以 根据 天 气 来 预测 关东 者 、 
茶叶 蛋 、 雨 衣 等 的 销售 数量 。 如 果 可 以 预测 销售 数量 ， 就 可 以 事先 准备 足够 的 商品 数量 ， 从 而 
增加 销售 额 , 也 可 以 减少 因为 准备 过 多 的 商品 而 导致 食材 的 浪费 或 者 商品 的 积压 。 除了 小 连锁 
超市 ， 餐 厅 也 很 适合 使 用 天 气 来 预测 销售 数量 。 


项 ee sharino 数据 集 


在 本 章 中 不 需要 自行 搜集 这 些 数据 ， 有 研究 单位 已 经 创建 了 这 些 数 据 。 可 以 使 用 浏览 器 来 
下 载 这 些 数据 ， 网 址 为 https://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset。 
图 18-1 即 为 Bike Sharing 数据 集 的 下 载 网 站 。 


View ALL Data Sets 


Bike Sharing Dataset Data Set 


Download Data Folder Data Set Description 


ly count of rental bikes between yeers 2011 end 2012 In Copital bleshare sysiem wih the 


Mmar ornetanene, | rTan | ares: Ew 
[mor or rarioune; [16 [ouio bonatea |20131220 


[emo vos [A Wombor orwev ss | an 


图 18-1 Bike Sharing 数据 集 的 下 载 网 站 


18.3 下 载 与 查看 数据 


TI01 下 载 /解压 缩 文件 
在 “终端 ”程序 中 输入 下 述 命令 : 
> ”切换 到 项 目 数据 目录 


cd ~/workspace/Classification/data 


> 下 载 Bike-Sharing-Dataset.zip 


wget https://archive.ics.uci.edu/ml/machine-learning-databases/00275/Bike- 
Sharing-Dataset .zip 
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> 解压 Bike-Sharing-Dataset.zip 


unzip -j Bike-Sharing-Dataset .zip 


运行 后 屏幕 显示 界面 如 图 18-2 所 示 。 


master ~/workspace/Classification/data 
hduser@naster:~$ cd ~/workspace/Classification/data 
hduser@naster:-/workspace/Classification/data$ wget https://archive.ics.uct.edu/ 
Unachine- learning-databases/00275/Bike-Sharing-Dataset. zip 

2016-05-18 22:14:17-- https://archive,ics.uci.edu/nl/nachine- Learning-databa: 
5/00275/Bike-Sharing-Dataset. zip 
正在 解析 主机 archive.ics.uci.edu (archive.ics.uci.edu)... 128.195.19.249 

在 连接 archive.ics.uci.edu (archive.ics.uci.edu)|128.195.19.249|:443... 已 连接 


: 279992 (273K) [application/zip] 
在 保存 至 : “Bike-Sharing-Dataset.zip” 


] 279,992 44.6KB/s ”用 时 5.2s 


lz2016-05-18 22:14:25 (44.0 KB/s) - 已 保存 “Btke-shartng-Dataset.ztp” [279992/2799| 
92]) 


hduser@naster:~/workspace/Classification/data$ unzip -] Bike-Sharing-Dataset. ztp| 
rchive; Bike-Sharing-Dataset.zip 
inflating: Readne.txt 
inflating: day.csv 
nflating: hour.csy 
hduser@naster:-/workspace/Classification/datas 


图 18-2 下 载 /解压 缩 文件 


D02 查看 Readme.txt 
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在 “终端 ” 


旦 序 中 输入 下 述 命令 : 


> ”查看 说 明文 件 ( 见 图 18-3 ) 


cat Readme .txt1more 


在 目录 下 主要 有 两 个 数据 文人 


@ hour.csv 一 一 以 小 时 为 单位 求 和 (租借 数量 ) 。 
@ day.csv 一 一 以 天 为 单位 求 和 (租借 数量 ) 。 


Readne .bxt 
hour ,csy + btke shartng counts aggregated on hourly basts. Records: 17379 hours 
~ day.csv ~ btke sharing counts aggregated on datly basts. Records: 731 days 


,except hr whtch ts not avatlable tn day.csy 


~ instant: record tndex 
dteday : date 
season : season (1:springer, 2:sumer, 3:fall, 4:wtnter) 
yr : year (90: 2911, 1:2012) 
~ mnth : nonth ( 1 to 12) 
~ hr ; hour (9 to 23) 
holiday : weather day ts holiday or not (extracted fron http://dchr.dc.gov/page/holiday-schedule) 
woekday : day of the veek 
worktngday : tf day ts netther weekend nor hottday ts 1, otherwtse ts @. 
+ weatherstt : 
~ 1: Clear, Fe clouds, Partly cloudy, Partly cloudy 
Mist + Cloudy, Mist + Broken clouds, Mist + Few clouds, Mist 
3: Light Snow, Light Rain + Thunderstorn + Scattered clouds, Light Rain + Scattered ctouds 
4: Heavy Ratn + Tce pallets + Thunderstorn + Mst, Snow + Fog 
tenp : Nornaltzed tenperature tn Celstus. The values are divtded to 41 (nax) 
atenp: Nornalized feettng tenperature tn Celstus. The values are dtvtded to 58 (nax) 
~ hun: Normattzed hunidity. The vatues are divided to 199 (nax) 
- windspeed: Nornalized wind speed. The values are divided to 67 (nax) 
casual: count of casual users 
regtstered: count of regtstered users 
cnt: count of total rental btkes tncludtng both casual and regtstered 


图 18-3 查看 说 明文 件 
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人 3 双击 hourcsv 打开 该 文件 ( 见 图 18-4) 


加 是 近 使 放 的 
后 主 文件 大 
项 二 

时 如 短 

四 图 片 


ovtype data daycsv 


Dataset zip 


Readme bxt 


用 鼠标 双击 hour.csv 


图 18-4 打开 hour.csv 文 件 
人 4 查看 hourcsv ( 见 图 18-5) 


文字 - [hour csv] 


sf_workspaces 
加 workspacee 


字条 要 人 unicode 二 
半山 Bi- 中 文 丧 催 
开 好 的 行政 Ww0 
分 大 汉 硕 
Dd) @ 2 
SO 分 中) eg 
A] 


共 他 池 项 


引用 字段 作为 文字 人 ) 容 伟 业 外 字 (M0 
子 由 


其 痊 。| 际 兴 

Tinstant dteday 
1-6 
2011-61- 
2011-61 
Ze11-61- 
2611-61 
2011-61- 


图 18-5 查看 hour.csv 
人 5 hourcsv 字段 介绍 ( 见 图 18-6) 


Nourcsv= Libreoffice calc 


mh Pe oly weekcay 


i02011.01.0| 
11.2011-010 

122011-010 
132011.010 


BESoenynnpawNro 
ppheprponpppp 
BRNomrrNoownmw 


EEC 


Hoccoooccoocooc 


图 18-6 ”hour.csv 字段 
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hour.csv 字段 说 明 如 表 18-2 所 示 。 我 们 可 以 先 思考 一 下 如 何 处 理 。 
表 18-2 hour.csv 字段 说 明 


| 季节 (1:springer, 2:summer, 3:fall, 4:winter) 特征 字段 
[fw | 02 |ew 
TE 和 
下 
特征 字段 
workingday 工作 日 ， 非 周末 而 且 非 假日 
天 气 ， 


1: Clear, Few clouds, Partly cloudy, Partly cloudy 


2: Mist+Cloudy, Mist + Broken clouds, Mist + Few clouds, Mist 
3: Light Snow, Light RaintThunderstorm+Scattered clouds,Light 


Rain+Scattered clouds 
4: Heavy Rain + Ice Pallets + Thunderstorm + Mist, Snow + Fog 


| emp ”| 摄氏 温度 ， 将 温度 除 以 41 进行 标准 比 ”| 特征 字段 | 
| atemp | 实际 感觉 温度 ， 将 温度 除 以 50 进行 标准 化 ”| 特征 字段 | 
hum 


registered 登录 会 员 ， 此 时 段 租借 的 数目 
标签 字段 
i E 
此 时 段 租借 总 数量 cnt= casual+ registered (预测 目标 ) 


以 上 部 分 字段 会 忽略 ， 不 列 入 特征 字段 : 


weathersit 


@ instant (序号 ID) 、dteday (日 期 ) 与 预测 的 结果 无 关 ， 所 以 忽略 这 两 个 字段 。 

@ yr 年 份 (0:2011,1:2012 ) ， 因 为 我 们 希望 预测 未 来 的 年 份 ， 所 以 忽略 此 字段 。 

@@ casual 与 registered， 因 为 casual 加 registered 等 于 cnt ( 标签 字段 ) 。 这 两 个 字段 已 经 
隐 含 在 标签 字段 信息 里 ， 所 以 忽略 这 两 个 字段 。 


修改 PrepareData() 数据 准备 


决策 树 回 归 分 析 RunDecisionTreeRegression.py 完整 的 程序 代码 请 参考 本 书 范例 程序 。 决 
策 树 回归 分 析 程 序 的 基本 架构 与 第 13 章 介绍 的 决策 树 二 元 分 析 RunDecisionTreeBinarypy 类 似 , 因 
而 我 们 可 以 参考 第 13 章 的 详细 说 明 。 本 章 仅 说 明 RunDecisionTreeRegression.py 重要 的 修改 
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部 分 。 
人 To01 修改 PrepareData() 数据 准备 


PrepareData 函数 传 入 的 参数 sc 是 SparkContext， 返 回 trainData、validationData 、testData， 
主要 分 为 下 列 3 个 步骤 : 


人 02 导入 并 转换 数据 
输入 下 列 程序 代码 : 


以 上 程序 代码 说 明 如 下 : 


(1) 使 用 sc.textFile 读 取 hour.csv。 

(2) header = rawDataWithHeader.first() 取得 第 1 行 。 

(3) 第 1 行 表 头 是 字段 名 ， 所 以 使 用 下 列 程序 代码 删除 rawDataWithHeader.filter(lambda 
x:x!=header)。 

(4) lines =rawData.map(lambda x: x.split(",")) 以 ","” 间隔 取出 每 一 个 字段 。 

(5) 打印 第 一 项 数据 与 数据 项 数 。 


GT03 建立 训练 评估 所 需 数据 RDD[LabeledPoint] 


以 下 程序 代码 使 用 map 对 每 一 项 数据 进行 提取 标签 字段 与 特征 字段 。 建 立 LabelPoint， 
作为 后 续 训 练 数 据 。 


@ 提取 标签 字段 : extract label(D， 步 骤 4 会 介绍 。 
@ ”提取 特征 字段 : extract_features(rlen(r) - 1))， 步 骤 5 会 介绍 。 
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人 4 extract label () 提取 label 字段 
以 下 extract_label 0 程序 代码 用 于 提取 label 字段 : 


以 上 程序 代码 说 明 如 下 : 


(1) 先 使 用 label=(record[-1]) 取 出 最 后 一 个 字段 ， 就 是 label 标签 字段 。 
(2) 再 使 用 return float(label) 返 回 label 转换 为 float。 


人 ED5 extract_feature() 提取 特征 字段 


以 下 extract_feature() 程序 代码 用 于 提取 特征 字段 : 


以 上 程序 代码 说 明 如 下 : 


(1 )featureSeason=[convert_float(field) for field in record[2]] 提取 第 2 个 字段 (从 0 算 起 ) 
season， 执 行 convert_float 函数 ， 转 换 为 float。 

(2 ) features= [convert_float(field) for field in record[4: featureEnd-2]]， 因 为 我 们 会 忽略 yr、 
casual、registered 字段 ， 所 以 从 第 4 个 字段 (从 0 算 起 ) 读 取 到 featureEnd-2 字段 ， 执 行 
convert_float 函数 ， 转 换 为 float。 

(3) 最 后 返回 np.concatenate( (featureSeason, features))。 


《66 凡 随 机 方式 将 数据 分 为 3 部 分 并 返回 


以 下 程序 代码 .randomSplit([8，1，1]) 按照 8:1:1 的 比例 以 随机 方式 分 为 3 个 部 分 
(trainData, validationData, testData) 并 返回 数据 。 
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修改 DecisionTree.trainRegressor 训练 模型 


在 决策 树 回 归 分 析 时 ， 我 们 必须 使 用 DecisionTree.trainRegressor。 决 策 树 回 归 分 析 的 参数 
设置 无 numClasses 参数 ， 而 且 impurity 固定 是 "variance"。 


J01 修改 trainEvaluateModel 参数 评估 ( 见 图 18-7 ) 


def tralnEvaluateModel(trainData,validationData, 
impurityParm, maxDepthParm, maxBinsParm): 


startTime = time() 
model -|DecisionTree.trainRegressorltrainData, 修改 为 De onTree.trainRegressor 
categoricalFeaturesInfo={}, \ 


impurity=impurityParm, 
maxDepth=maxDepthParm, 
maxBins=maxBinsParm) 
RMSE = evaluateModel(model, validationData) 
duration =time() - startTime 
print “ 劝 蔡 评 从 : 扼 大 参 戏 “+\ 
%s'"%impurityParm+ \ 
m= %s"%maxDepthparm+ \ 
arm = %d.‘%maxBinsParm + \ 
历 守 Wj/=%d"%duration + \ 
花 罗 RMSE = %f" % RMSE 
return (RMSE,duration, impurityParm, maxDepthParm, maxBinsParm, model) 


图 18-7 修改 trainEvaluateModel 参数 评估 


人 2 修改 parametersEval() 参数 评估 


在 决策 树 回 归 分 析 中 ， 必 须 使 用 DecisionTree.trainRegressor 训练 数据 ， 其 中 impurity 固 
定 是 "variance"， 因 此 将 impurityList 参数 改 为 ["variance"]， 如 图 18-8 所 示 。 


RunDecisionTreeRegression 3 
def parametersEval(training_RDD, validation_RDD): 


print( 评 褒 
evalParameter(training_RDD, 


) 
validation_RDD, "maxDepth", 


=[3, 5, 10, 15, 20, 25] ， 
maxBinsList=[10]) 


print( - 评 训 maxBins 参 慌 匈 万 --------- ) 
evalParameter(training_RDD, validation_RDD 
impurityList=| 


maxDepthList=[10], 
maxBinsList=[3, 5, 10, 50, 100, 200]) 


图 18-8 ”修改 parametersEval() 参数 评估 
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以 RMSE 评估 模型 准确 率 


在 回归 分 析 (Regression ) 中 ， 我 们 使 用 RMSE (Root Mean Square Error) “计算 预测 
的 结果 ”与 “标签 字段 ”的 误差 平均 值 。 通 常 RMSE 越 小 ， 代 表 误 差 越 小 ， 即 代表 预测 值 与 
真实 的 值 越 接近 ， 表 示 准 确 度 越 高 。 


人 1) 修改 evaluateModel 评估 模型 计算 RMSE 


我 们 可 以 使 用 RegressionMetrics 先 建立 Metrics， 然 后 使 用 .rootMeanSquaredError 方法 
计 算 均 方 根 差 (RMSE) 。 修 改 evaluateModel 程序 代码 ， 计 算 RMSE， 如 图 18-9 所 示 。 


加 RunDecisionTreeRegression 3 © EB) RunDecisionTreeMulti 。 是 RunDecisionTreeBinal 


def evaluateModel(model, validationData): 
score = model.predict(validationData.map(lambda p: p.features)) 
scoreAndLabels=score.zip(validationData.map(lambda p: p.label)) 


metrics = RegressionMetrics(scoreAndLabels) 
RMSE=metrics.rootMeanSsquaredError 改 为 RegressionMetrics 
return( RMSE) 
图 18-9 修改 evaluateModel 评估 模型 计算 RMSE 
人 2 修改 evaluateParameter 评估 参数 


将 程序 代码 改 为 RMSE 评估 参数 ， 如 图 18-10 所 示 。 


def evalParameter(trainData, validationData, evaparm,impurityList, maxDepthList maxBinsList): 
metrics = [trainEvaluateModel(trainData, validationData, impurity,maxdepth, maxBins ) 


for impurity in impurityList 
for maxdepth in maxDepthList 
for maxBins in maxBinsList ] 
if evaparm=="impurity”: 
IndexList=impurityList[:] 
elif evaparm=="/maxDer 
IndexList=maxDepthList[: 
elif evaparm=='WmaxBins 
IndexList=maxBinsList[:] 


df = pd.DataFrame(metri 
maxDepthParm' ‘maxBinsParm' ‘model) 
10,6),legend=True, fontsize=12) 


ax=di at(k 
ax.set_xlabel(evaparm,fonts 
ax.set_xlabel 
ax.Set_ ylim([0.200] 
ax.set ylabel( RMSE] 
ax2 = ax.twinx() 
ax2.plot(dfl[ guration]].values, linestyle=-, marker=Dy linewidth=2.0color= 门 
plt.show() 


fontsize=12) 


18-10 ”修改 evaluateParameter 评估 参数 
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18.7 训练 评估 找 出 最 好 的 参数 组 合 


evaluateAllParameter 程序 将 3 个 参数 训练 评估 ， 找 出 最 好 的 参数 组 合 。 

在 回归 分 析 中 ， 我 们 以 RMSE 作为 评估 模型 的 准确 率 。RMSE 越 小 ,代表 误差 越 小 ， 准 
确 率 越 高 ， 所 以 使 用 从 小 到 大 排序 ， 并 取出 第 一 项 数据 ， 找 出 最 佳 的 模型 (可 参考 图 18-11 中 
的 程序 代码 ) 。 


def evalAllParameterltraining_RDD, validation_RDD, impurityList maxDepthList, maxBinsList): 
metrics = [trainEvaluateModel(trainData, validationData, impurity,maxdepth, maxBins ) 
for impurity in impurityList 
for maxdepth in maxDepthList 


for maxBins in maxBinsList 
Smetrics = sorted(metrics, key=lambda k: k[0]) 
bestParameter=Smetrics[0] 排序 改 为 从 小 到 大 


博 喜 ; /ImDU110 + str(bestParameter[2]) + 
+ str(bestparameter[3]) + 
5:* + str(bestParamerter[4]) + 
苞 轩 RMSE = “+ str(bestpParameter[0])) 


return bestParameter[5] 


图 18-11 找 出 最 好 的 参数 组 合 


18.8 使 用 训练 完成 的 模型 预测 数据 


人 1) 修改 PredictData() 预 测 数 据 


PredictData() 函数 包括 下 列 4 个 步骤 ; 


def PredictDatal(sc,model): 


第 1、2 步 与 PrepareData() 相同 ， 可 自行 参考 第 18.4 节 的 内 容 ， 第 3 步 定 义 字 典 与 第 
4 步 进行 预测 并 显示 结果 将 在 后 文 介绍 。 


C302 定义 宁 典 
后 续 我 们 希望 能 将 数字 显示 成 有 意义 的 文字 ， 所 以 定义 下 列 字典 : 
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人 63 进行 预测 并 显示 结果 
输入 下 列 程序 代码 : 


以 上 程序 代码 说 明 如 表 18-3 所 示 。 


表 18-3 ”程序 代码 说 明 
程序 代码 说 明 


取出 20 项 进行 预测 


OO PO ey ep de lp.features 进行 预测 , 预测 结 


取得 标签 字段 
取得 特征 字段 


ws 让 正 确 "if (label 一 predicb else " 判断 预测 是 否 正确 


label (标签 字段 ) 与 predict (预测 结果 ) 相 减 ， 得 出 误 
以 下 特征 的 说 明 都 存放 在 daaDese 变量 中 


str(features[1])+" 月 "小 显示 月 份 
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( 续 表 ) 
程序 代码 说 明 
ee 
"星期 "+WeekDict[features[4]]+","+\ 使 用 字典 WeekDict， 显 示 星 期 
WorkDayDict[features[5]]+","+\ 使 用 字典 WorkDayDict， 显 示 工 作 日 / 非 工作 日 
WeatherDict[features[6]]+","+\ 使 用 字典 WeatherDict， 显 示 天 气 
显示 的 气温 ,因为 原始 数据 已 经 将 温度 除 以 41 进行 了 标准 
化 ， 所 以 再 乘 以 41 还 原 真实 的 温度 
实际 感觉 温度 ， 因 为 原始 数据 已 经 将 感觉 温度 除 以 50 进行 
了 标准 化 ， 所 以 再 乘 以 50 还 原 真 实 的 温度 
因为 原始 数据 已 经 将 风速 除 以 67 进行 了 标准 化 ， 所 以 再 乘 
以 67 还 原 真 实 的 风速 


str(features[7] 41)+" 度 "+ 
"体感 " + str(features[8] 50) + " 度 ," + 


"风速 "+ str(features[10] 67) +\ 


"一 > 预测 结果 :" + str(predict )H\ 


"” ,实际 :"+ str(label) + result 十 


"误差 :"+ str(error) 


print dataDesc 


1spark-submit 
2spark-submit yarn-client 
日 刀 = 3spark-submit Standalone 
区 Pythonproject import sfs RunAs 
* 名 ALSmodel from tighe import time External Tools Configurations. 


» Bdata impo pandas as pd Organize Favorites... 
* 所 ,output imnofr marnlntlih nvninr eR 


Hs package Explorer 中 


图 18-12 运行 外 部 工具 
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人 2 输入 参数 “-e”( 见 图 18-13 ) 


Variable input 


Please input a value 


下 


更 2. 单 击 OK 按钮 
Cancel 


图 18-13 输入 参数 “-e” 


个 J03 maxDepth 参数 评估 ( 见 图 18-14) 


如 9Ig 寺 本 本 园 
图 18-14 maxDepth 参数 评估 


从 图 18-14 可 以 看 到 maxDepth=10 时 RMSE 最 低 ，maxDepth 越 大 ， 所 需 时 间 越 多 ， 所 
以 maxDepth=10 是 不 错 的 选择 。 


人 ER4 maxBins 参数 评估 ( 见 图 18-15 ) 


18-15 maxBins 参数 评估 
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从 图 18-15 可 以 看 到 maxBins=200 时 RMSE 最 低 , maxBins 越 大 ， 所 需 的 时 间 越 多 ， 所 以 
maxBins=200 是 不 错 的 选择 。 


运行 RunDecisionTreeMulti.py 训练 
评估 参数 并 找 出 最 好 的 参数 组 合 


接 下 来 ， 我 们 用 evaluateAllParameter 函数 训练 评估 3 种 参数 ， 希 望 找 出 最 好 的 参数 组 


二 
合 。 


CI01 运行 外 部 工具 ( 见 图 18-16 ) 


ythonProject/RunDecisionTreeMuLtLpPy - Scala IDE 
@ 国 = | 2， 单 击 图 标 
1spark-submit 


2spark-submit yarn-client 
- 3spark-submit Standalone 


v & PythonProject import ys RunAs 


会 ALSmodel from tifne import time External Tools Configurations 
-亚运 行 
上 Bdata imporf pandas as pd Organize Favorites... 3. 单 击 要 运行 的 
* output imnoft matnintlih nyn n 


模式 


图 18-16 运行 外 部 工具 


本 B02 输入 参数 “-a”( 见 图 18-17) 


Variable input 


Please input a value 


2. 单 击 OK 按钮 


Cancel 


图 18-17 输入 参数 “-a” 
G03 进行 训练 评估 找 出 最 佳 参数 组 合 ( 见 图 18-18) 
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a proble 下 目 Console 3 


<terminated> spark-submit [Program] /usr/local/spark/bin/spark-submit 
1b/U8/31 UY:55:1/ WAKN NauveCogeLoager: Unanle to 10aa nauve-nagoop liorary Tor your platrorm... using oulitin-Java classe 


Masertocalln 

= 数据 准备 防 段 一 : 
开始 入 数据 - 

[u'1', uy'2011-01- Lo, uv uO’, uN', uy'0', 
共计 : 17379 项 
(16.0.[1.0.1.0.0.0.0.0.6.0.0.0.1.0.0.24.0.2879.0.81.0.0]) 


1 ui6, u0 u'1', u0.24, u'0.2879', U'0.81', u0, u3v u'13', u16] 


东 评 估 找 出 最 佳 参 数组 合 


nce_ ndaxDepthparm= 10 maxBinsParm = 100， 所 需 时 间 =11 结果 RMSE = 75.874122 


使 用 参数 i 


玛 评 全 “下 i variance maxDepthParm=3 maxBinsParm = 3. 所 需 时 间 =1 结果 RMSE = 138.628679 
训练 评估 ; 使 用 参数 ImpuntyParm= varlance maxDepthParm= 3 _ maxBInsParm = 5. 所 需 时 间 =1 结果 RMSE = 143.229976 
训练 评估 ; 使 用 参数 impurityParm= variance maxDepthParm=3 rmmaxBinsParm = 10， 所 需 时 间 =0 结果 RMSE = 132.609611 


训练 评估 : 使 用 参数 impurityParm= variance maxDepthParm= 25 maxBinsParm = 100. 所 需 时 间 =5 结果 RMSE = 92.814461 
训练 评估 : 使 用 参数 impurityparm= variance_ maxDepthparm= 25_ maxBinsparm = 200， 所 需 时 间 =5 结果 RMSE = 92.814461 
purity:variance .maxDepth:10 .maxBins:100 .结果 RMSE = 75.8741217226 


使 用 test Data 测 试 最 佳 模型 ， 结 果 RM: 
= 预测 数据 一 
开始 导入 数据 … 
共计 ; 17379 项 
特 季 ,1.0 月 ,0.0 时 , 非 假日 ,星期 日 , 非 工作 日 , 畏 ,9.84 度 ,体感 14.395 度 , 湿度 81.0, 风 还 0.0 
特征 ; 春季 ,1.0 月 ,1.0 时 , 非 假日 ,星期 日 , 非 工作 日 , 晴 ,9.02 度 ,体感 13.635 度 ,湿度 80.0, 风 速 0.0 


> 观测 结果 :2Z0 ， 实 际 :15.0 锚 误 ， 误 差 :4.0 
> 预测 结果 :51， 实 际 :40.0 措 误 , 误差 :11.0| 


18-18” 找 出 最 佳 参数 组 合 


运行 RunDecisionTreeMulti.py 
不 进行 训练 评估 


因为 训练 评估 比较 费时 ， 所 以 当 我 们 已 经 找 出 最 佳 参数 组 合 时 就 可 以 修改 
trainEvaluateModel 程序 为 最 佳 参数 组 合 。 下 次 要 进行 预测 时 ， 可 以 不 再 进行 训练 评估 ， 直 接 
使 用 最 佳 参数 进行 预测 。 


人 ED) 修改 trainEvaluate 为 最 佳 参 数组 合 ( 见 图 18-19 ) 


_name_== _maln_ : 
print("RunDecisionTreeRegression 
sc=CreateSparkContext() 

print(" == 并 希 惟 备 所 民 = 
(trainData, validationData, testData) 
trainData.persist(); validationData.persist(); testData, persist() 
print(” WR 
(AUC 二 i 


parametersEval(trainData, validationData) 修改 为 最 佳 参数 组 合 
elif (len(sys.argv) == 2) and (sys.argv[1]=="-a"): 


图 18-19 ”修改 trainEvaluate 为 最 佳 参数 组 合 
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人 2 执行 外 部 工具 ( 见 图 18-20 ) 


Pythonproject/RunDecisionTreeMulti.py - Scala IDE 
习 力 电 电 习 昌 区 "0O 


1 
局 Package Explorer 只 ” 口 |eRunpecsionrreeMuti 33 
arksubmityarn<ctient 


日 乞 了 ark-submit Standalone 


"区 PythonProject RunAs 
* 会 ALSmodel from ti 加 e import time External Tools Configurations. 
* data Organize Favorites... 

*» Goutput 


3. 单 击 要 运行 的 
模式 


18-20 执行 外 部 工具 


人 63 不 输入 参数 ( 见 图 18-21 ) 


Please input a value 


| 


图 18-21 不 输入 参数 


JT04 运行 结果 


运行 结果 如 图 18-22 所 示 ， 从 中 可 以 看 到 程序 训练 完成 后 就 能 够 进行 预测 。 因 为 不 需要 进 
行 训练 评估 ， 所 以 运行 所 需 的 时 间 比 较 少 。 


贺 Problems 名 Tasks | 加 console 3 共 实 区 加 | 
rk-submit parameter [Program] /usr/local/spark/bin/spark-submil Ee i 
En [aaas | 数据 准备 


[uT, U2011-01-01.U1 U0UT y'O’, uy'0’, u'6’, u'0', U'1', y'0.24', U'0.2879’, y'0.81', y'0', U'3', u'13', u161 


共计 ; 17379 项 

(16.0,[1.0,1.0,0.0,0.0,6.0,0.0,1.0,0.24,0.2879,0.81,0.0]) 2. 训练 评 四 
。 < 水 中 

将 数据 分 trainData:13926 validationData:1763 testData:1690 | 练 评估 阶段 


训练 评估 阶段 ==: 


训练 评估 ; 使 用 参数 impurityPal ariancemaxDepthParm= 10maxBinsParm = 100. 所 需 时 间 =8 结 果 RMSE = 82.218038 
= = 测试 阶段 
使 用 test Data 测试 最 住 便 型 ,结果 RMSE80.698956555 一 一 一 一 一 一 一 


80.6989561315 
i 


=: 预测 数据 =: =: 
开始 导入 数据 … 
共计 : 17379 项 
特征 : 春季 ,1.0 月 ,0.0 时 , 非 假日 ,星期 六 , 非 工作 日 , 晴 ,9.84 度 ,体感 14.395 度 ,湿度 81.0, 风 速 0.0 ==> 预测 结果 :37， 实 际 :16.0 错 误 , 误差 :21.0 
特征 : 春季 ,1.0 月 ,1.0 时 , 非 假日 ,星期 六 , 非 工作 日 , 畏 ,9.02 度 ,体感 13.635 度 ,湿度 80.0, 风 速 0.0 一 > 预测 结果 :37， 实 际 :40.0 错 误 , 误差 :3.0 
特征 : 春季 ,1.0 月 ,2.0 时 , 非 假日 ,星期 六 , 非 工作 日 , 晴 ,9.02 度 ,体感 13.635 度 ,湿度 80.0, 风 速 0.0 一 > 预测 结果 :18 ， 实 际 :32.0 错 误 ， 误 差 :144 
特征 : 春季 ,1.0 月 ,3.0 时 , 非 假日 ,星期 六 , 非 工作 日 , 睛 ,9.84 度 ,体感 14.395 度 ,湿度 75.0, 风 速 0. :11 ， 实 际 :13.0 错 误 ， 误 差 :2.0 
特征 : 春季 ,1.0 月 ,4.0 时 , 非 假日 ,星期 六 , 非 工作 日 , 睛 ,9.84 度 ,体感 14.395 度 ,湿度 75.0, 风 速 0. 际 :1.0 和 错误， 误差 :4.0 
特征 : 春季 ,1.0 月 ,5.0 时 , 非 假日 ,星期 六 , 非 工作 日 , 险 ,9.84 度 ,体感 12.88 度 ,湿度 75.0, 风 速 6.003: , 实际 :1.0 错 误 ， 误 差 :4.0 
特征 : 春季 ,1.0 月 ,6.0 时 , 非 假日 ,星期 六 , 非 工 作 日 , 晴 ,9.02 度 ,体感 13.635 度 ,湿度 80.0, 风 速 0.0 = 二 > 预测 结果 :3， 实 际 :2.0 错 误 ， 误 差 :1.0 
特征 : 春季 ,1.0 月 ,7.0 时 , 非 假日 ,星期 六 , 非 工作 日 , 睛 ,8.2 度 ,体感 12.88 度 ,湿度 86.0, 风 速 0.0 ==> 预测 结果 :14， 实 际 :3.0 错 误 , 误差 :11.0 


图 18-22 ”运行 结果 
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(1) 数据 准备 阶段 : 显示 导入 项 数 以 及 trainData、validationData、testData 项 数 。 

(2) 训练 评估 阶段 : 进行 最 佳 参数 训练 ，impurity:variance，maxDepth:10，maxBins:100， 
结果 RMSE 大 约 为 82。 

(3) 测试 阶段 :使 用 测试 数据 再 测试 模型 ，RMSE 大 约 为 80， 与 训练 阶段 差异 不 大 ， 确 
认 没 有 overfitting 的 问题 。 

(4) 预测 阶段 :使 用 hour.csv 预测 ， 显 示 在 不 同 的 天 气 条 件 下 预测 的 值 与 实际 的 值 并 显 


结论 


本 章 介 绍 了 Spark MLlib 决策 树 回归 分 析 ， 并 且 完 成 了 数据 准备 、 训 练 模型 、 存 储 模型 、 
进行 预测 Bike Sharing〔 共 享 单车 ) 租借 数量 。 后 续 第 19~22 章 将 介绍 DataFrame 与 SQL， 
以 及 Spark ML pipeline: Dataframes-based 机 器 学 习 API。 
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第 19 章 
Python Spark SQL、DataFrame、 
RDD 数据 统计 与 可 视 化 


Spark 数据 处 理 方式 主要 有 3 种 : Spark SQL、 
DataFrame、RDD。 本章 我 们 将 示范 如 何以 这 3 种 方式 进行 数 
据 统 计 与 数据 可 视 化 。 


寿 ， Python+Spark 2.0+Hadoop 机 器 学 习 与 大 数据 实战 


RDD、DataFrame、Spark SQL 比较 


> RDD API 


In [91]: userRDD.map(lambda x: (x[2],1)).reduceByKey(lambda xy: x+y).collect0) 
Out[91]: [(u'M', 670), (u'F', 273)] 


使 用 RDD API 进行 数据 统计 ， 主 要 是 使 用 map 配合 reduceByKey。RDD 的 数据 类 型 
只 有 数据 ， 没 有 定义 Schema， 也 就 是 说 RDD 未 定义 字段 名 及 其 数据 类 型 ， 所 以 我 们 只 能 使 
用 位 置 来 指定 每 一 个 字段 。 例 如 ， 上 述 程序 代码 ， 我 们 要 统计 性 别 ， 必 须 以 map 方法 配合 
lambda 语句 转换 为 (x[2],1)，x[2] 就 是 性 别 字段 ， 然 后 使 用 reduceByKey 计算 总 和 。 因 此 我 
们 必须 要 有 Map/Reduce 的 概念 ， 才 能 编写 出 下 列 程序 代码 。 这 通常 是 我 们 必须 要 有 高 级 的 
程序 设计 能 力 才 能 够 达到 。 不 过 ，RDD 功能 也 最 强 ， 能 完成 所 有 Spark 功能 。 


> DataFrame API 


In [95]: user_df.select("gender").groupby("gender").count().show() 
由 < 
lgender |count | 
Soe Nene + 
1 Fl 273| 
1 M| 679| 


Spark DataFrame 被 创建 时 必须 定义 Schema， 定 义 每 一 个 字段 名 与 数据 类 型 ， 因 而 我 们 
可 以 用 字段 名 例如 gender 性 别 ) 进行 统计 。DataFrame API 已 经 定义 了 很 多 类 似 SQL 的 
方法 ， 例 如 select()、groupby()、count()， 我 们 可 以 使 用 这 些 方 法 进行 统计 ， 比 起 RDD 显然 
容易 使 用 多 了 。 只 是 使 用 DataFrame API 必须 要 有 基础 的 程序 设计 能 力 。 


> Spark SQL 


In [93]: sqlContext.sql("" 
SELECT gender ,count(*) counts 
FROM user_table 
GROUP BY gender""").show() 


+----- 4------ + 
lgender |counts| 
he===a= 他 ccc 全 
1 FI 273| 
1 M| 6791 


dastodesset 


Spark SQL 是 由 DataFrame 派生 出 来 的 ， 我 们 必须 先 创建 DataFrame， 然 后 通过 登 
录 Spark SQL temp table 就 可 以 使 用 Spark SQL 语句 了 。 使 用 Spark SQL 最 简单 ， 就 是 
直接 使 用 SQL 语句 ， 即 使 是 非 程序 设计 人 员 ， 只 需要 懂得 SQL 语句 就 可 以 使 用 。 
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192 创建 RDD、DataFrame 与 Spark SQL 


为 了 让 大 家 更 容易 理解 DataFrame 与 Spark SQL， 我 们 使 用 IPython Notebook 来 示范 ， 因 
为 使 用 IPython Notebook 具有 互动 性 的 好 处 ， 可 以 看 到 命令 执行 后 的 结果 。 以 下 示范 在 本 地 执 
行 ， 读 者 也 可 以 参考 第 9.9 节 的 说 明 在 不 同 的 模式 运行 IPython Notebook。 读 者 可 以 参考 附录 
A 有 关 本 书 的 范例 程序 下 载 与 安装 的 说 明 去 下 载 本 章 IPython Notebook 范例 文件 进行 练习 。 
19.2.1 在 local 模式 运行 IPython Notebook 

在 “终端 ”程序 中 输入 下 列 命令 : 


> 切换 到 ipynotebook 工作 目录 
cd ~/pythonwork/ipynotebook 


> 使 用 IPython Notebook 界面 在 本 地 运行 pyspark 
PYSPARK_DRIVER PYTHON=ipython PYSPARK DRIVER PYTHON OPTS="notebook" pyspark 


按 Enter 键 后 就 会 启动 浏览 器 ， 默认 的 网 址 是 http://localhost:8888， 显 示 IPython Notebook 
界面 。 


19.2.2 创建 RDD 
G001 配置 文件 读 取 路 径 


在 IPython Notebook 使 用 下 列 指令 配置 文件 读 取 路 径 : 


In [1]: global Path 
If sc.master[0:5]=="|ocal" : 
Path="file:/home/hduser/pythonwork/Pythonproject”" 
else: 
Path="hdfs://master:9000/user/hduser/” 


以 上 程序 判断 : 


@@ 如果 sc.master[0:5] 是 "local"， 代 表 当 前 是 本 地 运行 ， 读 取 本 地 文件 。 
@ 如果 sc.master[0:5] 不 是 "local"， 也 就 是 在 cluster( 群 集 ) 运 行 , 就 有 可 能 是 YARN 
client 或 Spark stand alone， 读 取 HDFS 文件 。 


人 62 读 取 文 本 文件 并 且 查 看 数据 项 数 
在 IPython Notebook 使 用 下 列 指令 读 取 文 本 文件 并 且 查看 数据 笔 数 : 
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In [2]: RawUserRDD= sc.textFile(Path+"data/u.user") 


In [3]: RawUserRDD.count() 


Out[3]: 943 


以 上 运行 结果 显示 共有 943 项 数据 。 


03 查看 前 5 项 数据 


在 IPython Notebook 使 用 指令 查看 前 5 项 数据 〈 见 图 19-1)。 


In [4]: RawUserRDD.take(5) 


Out[4]: [u'"11241M1techniciai I, 
u'"21531Flother194643' 
u'"31231Mlwriter132967 
u'4|24|M|technician|43537', 
u'5|33|Flother|15213'] 


图 19-1 查看 前 5 项 数据 
G04 按照 “|” 符 号 获取 每 一 个 字段 


从 之 前 的 步骤 可 以 看 到 ， 因 为 字段 之 间 以 “|” 符 号 分 隔 ， 所 以 我 们 使 用 下 列 程序 代码 来 
获取 每 一 个 字段 。 
以 下 程序 代码 RawUserRDD.map(lambda line:) 使 用 map 处 理 每 一 项 数据 ， 用 lambda 
语句 创建 匿名 函数 传 入 line 参数 。 在 艾 名 函数 中 ，line.split("|") 按照 “|” 符 号 的 分 隔 获取 每 
-个 字段 。 最 后 查看 前 5 项 数据 。 


In [7]: userRDD =RawUserRDD.map(lambda line: line.split("|")) 
userRDD .take(5) 
Out7]: [fu'1', u'24', 
[u'2', u's3', 


u'M', u'technician', u'85711'], 

四 
[u'3', uy'23', 由 

由 

由 


', U'other', u'94943'], 
', u'writer', u'32967'], 
[u'4', u'24', i 
[u's', uy'33', 7 


u'technician', u'43537'], 
u'other', u'15213']] 


万 三 三 刀 三 


19.2.3 创建 DataFrame 
在 上 一 小 节 我 们 创建 了 userRDD。 接 下 来 ， 我 们 使 用 此 RDD 创建 DataFrame。 
人 0) 创建 sqlContext 


在 Spark 早期 版 本 , spark context 是 Spark 的 入 口 、sqlContext 是 SQL 的 入 口 、HiveContext 
是 hive 的 入 口 。 到 了 Spark 2.0， 我 们 只 要 使 用 Spark Session 就 可 以 同时 具备 spark context、 
sqlContext、HiveContext 的 功能 。 可 以 使 用 下 列 指令 创建 sqlContext: 


In [8]: sqlContext = SparkSession.builder.getOrCreate() 
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2 定义 Schema 
然后 ， 定 义 DataFrames 的 每 一 个 字段 名 与 数据 类 型 ， 如 图 19-2 所 示 。 


In [9]: from pyspark.sql Import Row 
User_Rows = userRDD.map(lambda p: 
Row( 

userid=int(p[O]), 

age=int(P[T)， 

gender=p[2], 

occupation=p[3], 

zipcode=p[4] 

) 


) 
User_Rows.take(5) 


[Row(age=24, 


Out[9]: technician'’, userid=1, 7incode=u'85711), 


Row(al "Mm" writer', userid=3, zipcode=u'32067'), 
Row(age= "Mm', i technician', userid=4, zipcode=u'43537'), 
Row(ag6s53 gender=u'F'， 0 other', userid=5, zipcode=u'15213')] 


19-2 定义 Schema 


从 以 上 运行 结果 我 们 可 以 看 到 每 一 项 都 是 Row 数据 类 型 并 且 已 经 定义 了 每 一 个 字段 的 
名 称 与 数据 类 型 。 程 序 代 码 详 细 说 明 如 表 19-1 所 示 。 
表 19-1 程序 代码 说 明 
序 代码 说 明 


from pyspark.sql import Row 导入 Row 模块 


user_Rows = 使 用 userRDD.map 处 理 每 一 项 数据 , 用 lambda 语句 创建 匿名 
userRDD.map(lambda p: 函数 ， 传 入 p 参数 作为 每 一 项 数 


Row( 


userid=int(p[0]), 

age=int(p[1]), 在 匿名 函数 中 ,使 用 Row 传 入 每 一 个 字段 , 创建 Row 数据 类 
gender=p[2], 型 。 其 中 ，userid 与 age 是 数值 ， 使 用 int() 进行 转换 ;其余 
occupation=p[3], 是 文字 ， 不 需要 转换 

zipcode=p[4] 


user_ Rows.take(5) 查看 前 5 项 user_Row 


103 创建 DataFrames 


创建 了 user_Rows 之 后 ， 使 用 sqlContext. createDataFrame() 方法 传 入 user_Rows 数据 ， 
创建 DataFrame， 然 后 使 用 .printSchema() 方法 查看 DataFrames 的 Schema。 


In [10]: user df = sqlContext.createDataFrame(user Rows) 
user_df .printschema() 


root 

1-- age: long (nullable = true) 

1-- gender: string (nullable = true) 

1-- occupation: string (nullable = true) 
1-- userid: long (nullable = true) 

1-- zipcode: string (nullable = true) 
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以 上 运行 结果 显示 Schema， 我 们 可 以 看 到 age 与 userid 都 是 数值 的 long 数据 类 型 ， 
其 他 的 是 string 字符 串 数据 类 型 。 
《63 查看 DataFrames 数据 无 法 排列 整齐 


可 以 使 用 show(5) 查 看 前 5 项 数据 。 有 可 能 会 看 到 图 19-3 所 示 的 界面 ， 数 据 无 法 排列 整 
齐 。 这 是 由 IPython Note 默认 字体 的 字 宽 不 同 导致 的 。 


2Jupyter ae 
Flle Ed View Insert Cell Kemel Help 
+ XmD 人 个 vy HOC Coe 十 加 | o| 


In[15]: user_df.show(5) 
fe 
lage |gender|occupation|userid| zipcode| 
i 


124| Miltechniclan| 1| 85711| 
153| FI other| 2| 94043| 
123| MI writer| 3| 32067| 
1 24| Mltechniclan| 4| 43537| 
133| Fl other| 5| 15213| 
et 


only showing top 5 rows 


图 19-3 查看 DataFrames 数据 无 法 排列 整齐 


19.2.4 设置 IPython Notebook 字体 

因为 IPython Notebook 在 浏览 器 中 运行 ， 所 以 我 们 可 以 通过 修改 css 改变 显示 字体 。 
人 EROi 编辑 custom.css 

在 “终端 ”程序 中 输入 下 列 命令 : 


> 使 用 gedit 编辑 custom.css 
sudo gedit ~/anaconda2/lib/python2.7/site-packages/notebook/static/custom/custom.css 


使 用 gedit 打开 custom.css 后 ， 输 入 下 列 css 语句 ， 设 置 字体 为 Courier New、 大 小 为 
9pt。 输 入 完成 后 存盘 退出 ， 如 图 19-4 所 示 。 


*custom.css (~/anaconda2/lib/python2.7/site-packages/notebook/static/cust 


文件 (F) 编辑 (E) 查看 (V) 搜索 (5) 工具 (T) 文档 
| 


天 *custom.css X 


div.output_area pre 

font-family:Courier New; 
font-size: 9pt; 打开 后 ， 输 入 CSS 语句 
} 


图 194 输入 CSS 语句 
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E302 在 浏览 器 中 单 击 Reload 图 标 


编辑 完成 后 ， 在 浏览 器 中 单 击 Reload 图 标 重 新 加 载 后 ， 我 们 可 以 看 到 DataFrame 已 经 排 
列 整齐 ， 如 图 19-5 所 示 。 


€ | ® localhost:s888/notebooks/pythonwork/ipynotebook/ ipynb TJ] [& sear 二 
1. 单 击 Reload 图 标 
=JU pyter (unsaved changes) 


File Edit View Insert Cell Kernel Help 


B+ixm DBD 个 vv HC co dellc 


In [9]: user df.show(5) 


中 =- PE 


lagelgenderloccupa 
4---Y------ +---- 


Mltechnician| 857111 
946431 2. DataFrame 已 经 排列 整齐 
326671| 

MItechnician1| 435371 


other| 15213| 


图 19-5 单 击 Reload 图 标 


19.2.5 为 DataFrame 创建 别名 


有 时 DataFrame 名 称 会 很 长 , 我 们 可 以 使 用 .alias() 方法 帮 DataFrame 创建 别名 。 例 如 ， 
user_df.alias("df"')， 后 续 我 们 就 可 以 用 这 个 别名 执行 命令 了 。 


In [10]: df=user df.alias("df") 


df.show(5) 

We 

1 

+-- -+ 
1 857111 
1 531 FI otherl 21 94943| 
1 231 MI writer| 31 326671 
1 241 MItechnician| 41 43537| 
1 33] FI other| 5| 15213| 


only showing top 5 rows 


里 


头 上 运行 结果 与 之 前 的 步骤 完全 相同 。 


19.2.6 ”开始 使 用 Spark SQL 


之 前 我 们 创建 了 DataFrame， 下 面 使 用 这 个 DataFrame 登录 Spark SQL temp table， 登 录 
后 就 可 以 开始 使 用 Spark SQL 了 。 


人 ET) 登录 临时 表 


user_df 使 用 registerTempTable 方法 传 入 数据 表 名 称 作为 参数 ， 登 录 临 时 表 。 
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人 2 使 用 Spark SQL 查看 项 数 


登录 Spark SQL temp table 后 ， 我 们 就 可 以 使 用 Spark SQL 查看 项 数 了 。 以 下 命令 使 用 
sqlContext.sql() 输入 SQL 语句 : 使 用 SELECT 关键 词 指定 要 显示 count(*) 数据 项 数 ， 并 使 
用 FROM 关键 词 指定 要 显示 的 数据 表 user_table。 最 后 使 用 show() 显示 结果 。 


In [14]: sqlContext.sql(" SELECT count(*) counts FROM user_table").show() 


以 上 SQL 语句 执行 后 显示 共有 943 项 数据 。 
人 3 多 行 输入 Spark SQL 语句 

之 前 我 们 将 SQL 语句 显示 在 同一 行 中 ， 有 时 SQL 语句 很 长 ， 不 容易 阅读 ， 也 可 以 输入 
多 行 Spark SQL 语句 ,只 需要 使 用 3 个 双 引 号 “""” 引 住 SQL 语句 即 可 ， 如 图 19-6 所 示 。 


In [15]: sqlContext.sql(""" 使 用 3 个 双 引 号 “wowy 


SELECT count(*) counts is 
FROM user 人 引 住 SQL 语句 


图 19-6 输入 多 行 Spark SQL 语句 
运行 后 结果 与 上 一 步骤 完全 相同 。 


人 4 使 用 Spark SQL 查看 数据 


接 下 来 , 可 以 使 用 SQL 指令 查看 user_table 数据 。 运行 后 结果 如 图 19-7 所 示 。show0 方 
法 默认 显示 前 20 项 数据 。 
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In [16]: sqlContext.sql(" SELECT* FROM user table ")|show)| 
Re Pep 4 i + 
lagelgender| occupation|userid|zipcodel 
a ee 条 汪汪 > ee + 
1 241 MI technician| 1| 85711| 
1 531 FI otner| 21 949431 
1 231 mM writer| 31 32967| show() 方法 默认 显 
24 M technician 4 43537 二 
| 3 | | | 示 前 20 项 数据 
1 421 MI executivel 61 98101| 
1 57| Mladministrator| 7| 91344| 
1 26l Mladministrator| 8| e5261| 
1 291 MI student| 9| 61992| 
1 531 MI lawyer| 16| 967631 
1 391 Fl other| 11| 363291 
1 281 Fl other1 12| 9664651 
1 471 M| educator| 13| 29266| 
1 451 M| scientist| 14| 55196| 
1 491 FI educator| 15| 973611 
1 2341 Mlentertainment| 16| 163691 
1 36| MI progranmer| 17| 66355| 
1351 FI other| 18| 37212| 
1 461 MI librarian| 19| 621381 
1 421 FI homemaker| 29| 95669| 
让 es i 3 + 
only showing top 26 rows 


19-7 使 用 Spark SQL 查看 数据 
人 05 使 用 show() 方法 指定 要 显示 的 数据 项 数 


也 可 以 使 用 show0 方法 传 入 参数 来 指定 要 显示 的 数据 项 数 。 运 行 后 结果 如 图 19-8 所 示 ， 
show(5) 方法 显示 前 5 项 数据 。 


In [17]: sqlContext.sql(" SELECT * FROM user table")|show(5)| 
+---+------ +---------- +------ +------- + 
lagelgender |occupation|userid|zipcodel| 
十 ---+------ +---------- +------ +------- 十 
1 241 MItechnician1| 1| 857111 
1 531 Fl other| 2| 946431 
1 231 MI writer1| 3| 326671 
1 241 MItechnician1| 4| 435371 
1 331 FI other1 51 152131 
十 --- 人 +------ +---------- +------ +------- + 
only showing top 5 rows 


图 19-8 使 用 show() 方 法 显示 前 5 项 数据 
306 使 用 Spark SQL LIMIT 指定 要 显示 的 项 数 


在 步骤 5 中 ，SQL 语句 产生 的 数据 集 是 943 项 ， 但 是 这 里 只 显示 了 5 项 。 如 果 数 据 集 很 
大 , 例如 数 十 万 项 数据 , 可 能 会 运行 很 久 。 此 时 我 们 可 以 直接 使 用 LIMIT 语句 产生 只 有 5 项 
的 数据 集 ， 即 使 数据 量 很 大 也 不 会 运行 很 入 ， 如 图 19-9 所 示 。 
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mr sshow0 


+---+------ +---------- +------ +------- + 
lagelgender |occupation|userid|zipcodel 


In [91]: sqlContext.sql(" SELECT * FROM user table 


LIMIT 5 显示 前 5 项 数据 


857111 


1 531 Fl other1| 21 946431 
1 231 MI writer1| 3| 326671 
| 241 MItechnician1| 4| 435371 


other1| 152131 


之 前 我 们 已 经 创建 RDD、DataFrames 与 Spark SQL, 下 面 将 分 别 使 用 RDD、DataFrames 
与 Spark SQL 语句 来 示范 命令 的 使 用 。 通 过 这 种 方式 ， 我 们 可 以 比较 不 同 语句 的 差异 。 下 面 
首先 示范 显示 部 分 字段 。 


19.3.1 使 用 RDD 选取 显示 部 分 字段 


当 我 们 使 用 RDD 选取 显示 部 分 字段 时 ， 因 为 没有 Schema， 未 定义 字段 名 ， 所 以 只 能 指 
定位 置 。 在 这 里 我 们 要 显示 userid、occupation、gender、age 字段 ， 分 别 是 第 0、3、2、1 字 
段 ， 所 以 下 列 指 令 userRDD.map(lambda x:) 处 理 每 一 项 数据 ， 并 且 使 用 lambda 创建 匿名 函 
数 , 传 入 x 作为 参数 , 指定 显示 字段 x[0], x[3], x[2], x[1], 产生 另 一 个 userRDDnew 的 RDD。 
最 后 使 用 take(5) 显示 前 5 项 数据 。 


In [19]: userRDDnew= userRDD.map(lambda x: (x[0],x[3],x[2] ,x[1]) ) 
UserRDDnew.take(5) 
Out[19]: [(u'1', u'technician’, u'M', u'24'), 
(u'2', u'other', u'F', u'53'), 
(u'3', u'writer'’, u'M', u'23'), 
(u'4', u'technician’, u'M'’, U'24'), 
(u'5', u'other', u'F', u'33')] 


19.3.2 使 用 DataFrames 选取 显示 字段 


当 使 用 DataFrames 选取 显示 字段 时 ， 因 为 已 经 定义 了 Schema， 所 以 可 以 使 用 select 方 
法 输入 字段 名 。 下 面 使 用 DataFrame 选取 显示 字段 。 有 4 种 语句 ， 执 行 结 果 相 同 。 


(1) select 方法 输入 字段 名 字符 串 ， 选 取 显 示 字 段 。 


In [20]: user_df.select("userid","occupation","gender","age").show(5) 


(2) select 方法 输入 [dataframe 名 称 ].[ 字 段 名 ]， 选 取 显 示 字 段 。 
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我 们 也 可 以 使 用 [dataframe 名 称 ].[ 字 段 名 ] 来 指定 显示 数据 。 例 如 ， 下 列 指令 使 用 
user_df.userid, user_df.occupation 指定 要 显示 的 字段 ， 如 图 19-10 所 示 。 


In [20]: user df.select( 一 ).show(5) 


Dataframe 名 称 


19-10 使 用 [dataframe 名 称 ].[ 字 段 名 ] 的 方法 选取 显示 字段 


(3 ) select 方法 输入 [dataframe 别名 ].[ 字 段 名 ] ， 选 取 显 示 字 段 。 

之 前 的 方式 使 用 [dataframe 名 称 ].[ 字 段 名 ] 选 取 显 示 字 段 ， 有 时 会 让 程序 代码 见长 ,不易 
阅读 。 我 们 也 可 以 使 用 [dataframe 别名 ].[ 字 段 名 ] 来 选取 显示 字段 。 在 第 19.2.5 节 中 ， 我 们 
已 经 创建 了 别名 df, 所 以 可 以 使 用 df userid, df.occupation, df.gender,df.age 来 指定 要 显示 的 字 
段 ， 如 图 19-11 所 示 。 


In [22]: Colondende Glee ).show(5) 


图 19-11 使 用 别名 来 选取 显示 字段 


(4) select 方法 输入 中 括号 “[” 和 “ ]”， 选 取 显 示 字 段 。 


In [24]: df[dff'userid],dffoccupation],dffr'gender],dff'age] ].show(5) 


以 上 4 种 DataFrames 选取 显示 字段 的 语句 ， 运 行 结果 完全 相同 ， 如 图 19-12 所 示 。 


+------ 中 = 一 = 一 ”= 一 = +------ +---+ 
luseridloccupation|gender|agel 
+------ +---------- +------ 十 --- 十 
1 1Itechnician1| MI 24| 
1 21 other1| Fl 531 
| 31 writer1| MI 231 
1 4|technician| MI 24| 
1 51 other1| Fl 331 
+------ +---------= +------ +=---+ 
only showing top 5 rows 


图 19-12 最 终 的 运行 结果 


19.3.3 使 用 Spark SQL 选取 显示 字段 
在 SQL 语句 中 ， 我 们 可 以 使 用 SELECT 关键 词 来 指定 要 显示 的 字段 : 
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In [39]: sqlContext.sql(" SELECT userld,occupation,gender,age FROM user_table").shom(5) 
to te te + 
luserid|occupation|gender |agel 
te 4 te 4- 
1 1|technician| M| 24| 
1 21 other| Fl 53| 
1 3| writer| HI 23| 
| 4|technician| MI| 24| 
1 5| other| Fl 33| 
4 和 -oo ooo + 
only showing top 5 rows 


19.4 增加 计算 字段 


当 我 们 显示 数据 时 ， 某 些 字段 必须 经 过 计算 ， 例 如 用 户 的 年 龄 字段 。 我 们 想 要 知道 用 户 的 
出 生年 份 时 可 以 使 用 年 份 ， 就 用 年 份 ( 比 如 2016) 减 年 龄 ， 可 以 大 概 知道 用 户 的 出 生年 份 ， 
此 时 就 需要 使 用 计算 字段 了 。 
19.4.1 使 用 RDD 增加 计算 字段 


以 下 命令 与 之 前 RDD 显示 字段 类 似 ， 只 是 我 们 加 上 了 2016-int(x[1])， 用 于 计算 出 生年 
份 ， 并 显示 出 生年 份 ， 如 图 19-13 所 示 。 


In [26]: userRDDnew= userRDD.map(lambda x: (x[0],x[3],x[2] , x[1] jzo16-intx[1 直 ) 
UserRDDnew.take 5 
计算 字段 得 到 出 生年 份 


Out[26]; [(u'1', u'technician’, u'M', u'24' | 1993)， 
(uyu'2', u'other’', u'F', uy'S53', 1963 厂 
(u'3', u'writer', U 0 U'23"' ,1993), 
(u'4', u'technician’, u'M'’, u "24， 1992 


(u'5'，uU'other' urF' ,ua3', 1983)] 


此 用 户 计算 得 到 的 出 生年 份 是 1992 


-人 
| 


图 19-13 ”使 用 RDD 增加 计算 字段 


19.4.2 ”使 用 DataFrames 增加 计算 字段 


使 用 DataFrames 增加 计算 字段 比 RDD 简单 得 多 , 因为 DataFrames 具有 Schema 信息 ， 
所 以 我 们 可 以 直接 输入 字段 名 。 


人 iD) 使 用 DataFrames 增加 计算 字段 


下 列 指令 〈 见 图 19-14) 加 入 2016-dfage， 增 加 了 计算 字段 来 计算 出 生年 份 。 


436 


第 19 章 ”Python Spark SQL、DataFrame、RDD 数据 统计 与 可 视 化 二 


1ltechnician| 


1 

| 21 other1| 

| 31 writer1| 

1 41technician1 

1 51 other1| 

+------ +---------- +------ +---+------------ + 


only showing top 5 rows 


图 19-14 ”使 用 DataFrames 增加 计算 字段 
人 2 为 计算 字段 取 一 个 别名 


以 上 步骤 ,我 们 看 到 的 字段 名 是 “(2016 - age)”, 我 们 希望 能 为 计算 字段 取 一 个 别名 , 使 
用 “(2016-df.age).alias("birthyear")” 将 此 字段 的 别名 设置 为 “birthyear”， 如 图 19-15 所 示 。 


In [29]: df.select("userid","occupation","gender","age",Q2016-df.age).alias("birthyear ")}show(5) 


+------ +---------- +------ +--- 七 --------- + 
luserid|loccupation| gender |age sh EY 
和 ee ee A 为 计算 字段 设置 别名 


1|ltechnician| 


1 

| 21 otherl 

1 31 writer| i a a 
1 41technician1 字段 名 是 “birthyear 
1 51 other| 

es a a ee + 


only showing top 5 rows 


图 19-15 为 计算 字段 设置 别名 


19.4.3 使 用 Spark SQL 增加 计算 字段 


使 用 Spark SQL 语句 增加 计算 字段 也 很 简单 。 如 图 19-16 所 示 ， 这 里 增加 了 “2016-age 
birthyear” 语 句 来 计算 出 生年 份 ， 并 指定 字段 名 为 “birthyear”。 


In [29]: sqlContext.sql(""" 


SELECT A LE 是 ee 
FROM user table""").show(5) 1. 为 计算 字段 设置 名 称 birthyear 
+ 


+--- 十 


+ 本 

useridloccupation1gender birthyear y 、 a » 

sorteloceupationloender Ieeetr tye | 一 | 2 已 设置 字 耻 名 是 “binthyear” 
M| 241 19921 


11Itechnician1| 


1 

1 21 other| Fl 531 19631 
1 31 writer1| MI 231 19931 
1 41technician1 MI 241 19921 
1 sl other| Fl 331 19831 
+------ +---------- +------ +---+--------- + 


only showing top 5 rows 


19-16 
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195 筛选 数据 


接 下 来 介绍 如 何 筛选 我 们 所 需要 的 数据 。 


19.5.1 使 用 RDD 筛选 数据 


在 RDD 中 我 们 使 用 filter 方法 筛选 每 一 项 数据 ,配合 lambda 语句 创建 匿名 函数 传 入 参 
数 r。 在 匿名 函数 中 ， 使 用 “r[3] 一 'technician' and r[2] 一 'M' andr[1] 一 24'” 语 句 ( 见 图 19-17)， 
意义 是 : r[3]( 职 业 occupation)='technician'， 而 且 r[2]( 性 别 gender)="M'( 男 性 )， 而 且 r[1]( 年 龄 
age)=24 岁 。 


r[3]=="technician' and r[2}=='M' and r[1]=="24take(6) 


Out[95]: [[u'4', u'24', u'M', u'technician’, u'85711'], 
[u'4', u'24', u'M', u'technician’, u'43537°'], 筛选 条 件 
[u'456', u'24', u'M' ', u'31820'], 
u 
u 
u 


In [95]: userRDD.filter(lambdar: 


M', u'technician 
[u'717', u'24', u'M', u'technician', u'84195'], 
[u'832'，u'24'，u'M'，u'technician'，u'77942']， 
M 


[u'889', u'24', u'M', u'technician', u'78784'] 


图 19-17 使 用 RDD 第 选 数据 


19.5.2 ”使 用 DataFrames 筛选 数据 
接 下 来 ， 使 用 DataFrames 筛选 数据 。 有 下 列 4 种 语句 ， 执 行 结果 相同 。 


1. 使 用 多 个 filter 筛选 数据 
以 下 指令 使 用 多 个 filter 筛选 数据 ， 多 个 filter 相当 于 and (“ 且 ”)。 


In [31]: user_df.filter("occupation='technician' ").filter("gender='M' ").filter("age=24").show() 


2. 使 用 单个 filter 筛选 数据 

使 用 单个 filter 输入 语句 筛选 数据 ， 在 这 里 我 们 使 用 and 连接 条 件 。 使 用 这 种 语句 更 有 
弹性 ， 因 为 我 们 除了 使 用 and 外 ， 还 可 以 使 用 or 或 not 进行 筛选 。 

3. 使 用 [dataframe 名 称 ].[ 字 段 名] 指定 筛选 条 件 

另外 ， 还 可 以 使 用 [dataframe 名 称 ].[ 字 段 名 ] 来 指定 筛选 条 件 。 使 用 这 种 语句 时 ， 请 注意 
下 列 两 种 方式 : 


@ ”必须 使 用 “&”， 而 不 能 使 用 “and”. 
@ ”必须 使 用 “==”， 而 不 能 使 用 “=”. 


In [33]: dif.filter((df.occupation=='technician' ) & (df.gender=='M' ) & (df.age==24)).show() 
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4. 使 用 中 括号 [] 指定 筛选 条 件 


我 们 还 可 以 使 用 中 括号 [] 指定 筛选 条 件 ， 如 下 列 指令 : 


In [92]: df.filter((dffoccupation]=='technician' ) & (dff'gender]=='M' ) & (dff'age]==24)).show() 


以 上 4 种 DataFrames 命令 运行 的 结果 完全 相同 ， 如 图 19-18 所 示 。 


+---+------ +---------- +------ +------- 十 
lagelgender |occupation|userid|zipcodel| 
+---+------ +---------- +------ +------- + 
| 241 M|technician| 1| 85711| 
| 241 M|technician| 4| 43537| 
| 24| MItechnician| 456| 31828| 
| 241 M|technician]| 717| 841651 
| 241 MItechnician| 832| 776421 
| 241 MItechnician| 889| 787641| 
+---+------ +---------- +------ +------- 十 


图 19-18 使 用 DataFrames 筛选 数据 


19.5.3 ”使 用 Spark SQL 筛选 数据 


使 用 Spark SQL 筛选 数据 很 简单 ， 只 需要 使 用 where 语句 输入 筛选 条 件 即 可 : 


In [36]: sqlContext.sql( 
”SELECT 业 
FROM user table 


only showing top 5 rows 


+---+------ +---------- +------ +------- + 
lage|gender|occupation|userid|zipcode| 
+---+------ +---------- +------ +------- + 
| 241 MItechnician| 1| 85711| 
| 241 MItechnician1| 4| 435371 
1 241 MItechnician| 456| 31826| 
1 241 MItechnician| 717| 84195| 
| 241 MItechnician1| 832| 776421 


+---+------ +---------- +------ +------- 十 


where occupation='technician' and gender='M' and age=24").show(5) 


本 按 单个 字段 给 数据 排序 


19.6.1 RDD 按 单个 字段 给 数据 排序 
在 RDD 中 ， 可 以 使 用 takeOrdered(num, key=None) 方法 对 数据 进行 排序 : 
@ 第 1 个 参数 num: 要 显示 的 项 数 。 


@ 第 2 个 参数 key: 使 用 lambda 语句 设置 要 排序 的 字段 。 
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> 使 用 RDD 按 升序 给 数据 排序 
以 下 命令 用 于 设置 key=lambda x:int(x[1]), 也 就 是 按 x[1] 年 龄 从 小 到 大 排序 ( 见 图 19-19)。 


In [36]: userRDD.takeOrdered(5, key =|lambda x: int(x[1]}) 设置 按 年 龄 升序 排序 


out[36]: [[u'30°', , U'student' "55436 ' ] ， 
[u' 'M', uu' Een u'77459'], 


M', u other 1 U'48118"' ]， 


[u'669 "F'"，uU'student '，u'55166']] 


19-19 使 用 RDD 按 升序 排序 


> 使 用 RDD 按 降序 给 数据 排序 
以 下 命令 用 于 设置 key = lambda -1*x: int(x[1]), 也 就 是 按 年 龄 从 大 到 小 排序 ( 见 图 19-20)。 


[[u'481°', u'retired’', uy'37771°'], 


Out[43]: 


[u'767°', u'engineer', u'906690'], 
[u'863'， a nistrator 8 
[u'869'， ui'F', u' a u' A 22 Ys 
[u'ss9°', U'M', U'executive', u'10022']] 


19-20 使 用 RDD 按 降 序 排序 


19.6.2 使 用 Spark SQL 排序 
> ”Spark SQL 按 升序 给 数据 排序 


在 下 列 SQL 语句 中 , 我 们 使 用 ORDER BY 关键 词 加 上 字段 名 来 指定 排序 字段 ， 默 认为 
按 升 序 排序 ， 如 图 19-21 所 示 。 


In [38]: 


SqlContext.Sql(""" 
En er Ha 


ORDER BY ag | .show' 


1] 391 student| MI 7 

| 471| student| M) 19 ee 
| 289| nonel M 11| 按照 年 龄 升序 排序 
1 1421 other1| M| 1: 

1 6991 student| Fl 1 

+------ +---------- +------ + 


only showing top 5 rows 


图 19-21 使 用 Spark SQL 按 升 序 排序 


440 


第 19 章 ，Python Spark SQL、DataFrame、RDD 数据 统计 与 可 视 化 二 


> ”Spark SQL 按 降 序 给 数据 排序 


在 下 列 SQL 语句 中 ， 与 之 前 步骤 类 似 ， 唯 一 不 同 的 地 方 是 我 们 加 入 了 DESC 关键 词 ， 
设置 按 降序 给 数据 排序 ， 如 图 19-22 所 示 。 


In [39]: sqlContext.Sql(""" 
SELECT userid,occupation,gender,age 


FROM user table - 
二 设置 按 年 龄 降序 排序 


+------ +------------- +------ +---+ 

luserid| occupation|gender |agel 

+------ +------------- +------ +---+ 

1 4811 retired| 

1 7671 engineer| 

1 869| retired| 

| 893|ladministrator| 

1 559| executivel 按照 年 龄 降序 排序 


only showing top 5 rows 
图 19-22 使 用 Spark SQL 按 降序 排序 
19.6.3 使 用 DataFrames 按 升序 给 数据 排序 
使 用 DataFrames 按 升 序 给 数据 排序 。 默 认 设置 就 是 升序 。 


> 使 用 .orderBy("age") 按 升序 给 数据 排序 


我 们 可 以 使 用 .orderBy("age") 输入 要 排序 的 字段 名 来 进行 排序 。 默 认 设 置 是 升序 ， 所 以 
我 们 不 需要 注 明 ascending。 


In [46]: © user_df.select("userid","occupation","gender","age").orderBy("age").show(5) 


> 使 用 orderBy(df.age) 按 升序 给 数据 排序 
我 们 也 可 以 使 用 orderBy(df.age) 指定 排序 字段 ， 默 认为 升序 。 


In [77] df.select("userld","occupation","gender","age").orderBy(df.age).show(5) 


以 上 两 种 DataFrames 语句 的 运行 结果 完全 相同 ， 如 图 19-23 所 示 。 


+------ +---------- +------ +---+ 

useridloccupation|gender |agel 

+------ +---------- +------ +---+ 

361 student| MI 了 | 

4711 student| MI|| 19| 
289| nonel MI| 41 
1421 otherl NM|| 13| 
6691 student| Fl 13| 


only showing top 5 rows 
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19.6.4 ”使 用 DataFrames 按 降序 给 数据 排序 


使 用 DataFrames 按 降 序 给 数据 排序 ， 因 为 降序 不 是 默认 的 设置 ， 所 以 必须 特别 指明 。 
> 使 用 .orderBy("age",ascending=0 ) 按 降序 给 数据 排序 


In [75]: df.select("userid","occupation","gender","age").orderBy("age",ascending=0 ).show(5) 


> 使 用 df.age.desc() 指 定 排序 字段 ( .desc() 代表 降序 排序 ) 


In [50]: df.select("userid","occupation","gender","age").orderBy(df.age.desc()).show(5) 


以 上 两 种 DataFrames 语句 的 运行 结果 完全 相同 ， 如 图 19-24 所 示 。 


+ + + +---+ 


luserid| vocupntionioender aos! 
+------ +-------------+------ +---+ 
| 481| | M|| 73| 
| 7671 engineer| MI| 79| 
| 8661| retired| Fl| 79| 
| 893|administrator| MI|| 79| 
| 559| executivel MI|| 69| 
+------ +------------- +------ 


图 19-24 使 用 DataFrames 按 降 序 排列 


197 按 多 个 字段 给 数据 排序 


接 下 来 ,我 们 将 示范 按 多 个 字段 给 数据 排序 。 例 如 , 在 下 列 范例 中 , 我 们 将 按 年 龄 age 降 
序 排序 ， 按 性 别 gender 升序 排序 。 


19.7.1 RDD 按 多 个 字段 给 数据 排序 


下 列 指令 设置 排序 key 为 lambda x: (-int(x[1]), x[2]), 以 -int(x[1]) 设置 按 年 龄 age 降序 
排序 ， 并 且 以 x[2] 设置 按 性 别 gender 升序 排序 ， 如 图 19-25 所 示 。 


In [43]: ra key=lambda x: (-int(x[1]), x[2] )) 
Out[43]: [[u'481°',| u' |u'7s1) u'M', u'retired’, u'37771'], 
[u 


1869' u dtd u'48322°'], 
[u'767',| u'70" 9 7 96666 先 以 年 龄 降序 排序 , 如 
[uv'883',| u'76' u tr or, u'78212'], 


[Te 5 7 U'executive'，u'19922']] 果 年 龄 都 是 70 时 ， 再 
以 性 别 升序 排序 


[u'ss9’, 


图 19-25 RDD 按 多 个 字段 给 数据 排序 
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19.7.2 Spark SQL 按 多 个 字段 给 数据 排序 


在 以 下 Spark SQL 语句 中 ， 我 们 使 用 ORDER BY age DESC 设置 按 年 龄 进行 降序 排序 ， 
而 性 别 gender 按 默认 的 升序 排序 ， 如 图 19-26 所 示 。 


In [51]: sqlContext.sql(""" 
SELECT userid, age, gender,occupation,zipcode 
FROM user table 
ORDER BY age DESC,gende 


a 只 ee a + 
luseridlagelgender| occupation|zipcode| 


retired| 377711 
retired| 483221 


1 

1 

1 767 gi 966696 

| 0a | 一 9e22| 一 | 先 以 年 龄 降序 排序 ， 年 龄 都 是 
| ss9| 69| executive| 16922| 7 再 以 性 别 升序 排序 
和 和 


only showing top 5 rows 


19-26 Spark SQL 按 多 个 字段 给 数据 排序 


19.7.3 ”DataFrames 按 多 个 字段 给 数据 排序 
> 使 用 orderBy(["age","gender"],ascending=[0,1] 按 多 个 字段 给 数据 排序 
在 以 下 DataFrames 语句 中 ，orderBy 方法 设置 说 明 如 下 : 
@ 第 一 个 参数 : 设置 要 排序 的 字段 : ["age","gender"]。 


@ 第 二 个 参数 : 设置 排序 字段 的 升序 / 降序 : [0,1]。 第 一 个 字段 age 设置 为 0， 表 示 
是 升序 ; 第 二 个 字段 gender 设置 为 1， 表示 是 降序 。 


In [52]: df.orderBy(["age","gender"],ascending=[0,1] ).show(5) 


> 使 用 .orderBy(df.age.desc(),df.gender ) 按 多 个 字段 给 数据 排序 


我 们 也 可 以 使 用 .orderBy(df.age.desc(),df.gender ) 指定 第 一 个 字段 age 按 降序 排序 ， 第 
二 个 字段 gender 按 升 序 排列 。 


In [53]: df.orderBy(df.age.desc(),df.gender ).show(5) 


以 上 两 种 DataFrames 语句 的 运行 结果 完全 相同 ， 如 图 19-27 所 示 。 


4 4 4 4 + 
lagelgender| occupation|userid|zipcodel 


retired| 481| 37774| 
retired| 869| 48322| 


itator| 8631 e212 先 以 年 龄 降序 排序 ， 年 龄 都 是 
53 executive| ”5591 16922| | 70 时 ， 再 以 性 别 升序 排序 
only showing top 5 rows 


图 19-27 DataFrames 按 多 个 字段 给 数据 排序 
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着 5 本 示 不 重复 的 数据 | 


本 节 将 介绍 如 何 显示 不 重复 的 数据 。 


19.8.1 RDD 显示 不 重复 的 数据 
人 Di 中 示 性 别 字段 不 重复 的 数据 
使 用 下 列 指令 显示 userRDD 性 别 字段 不 重复 的 数据 : 


In [48]: userRDD.map( lambda x:x[2] ).distinct().collect() 


Out[48]: [u'M', u'F'] 


以 上 运行 结果 只 显示 'M' 与 'F' 这 两 项 。 程 序 代码 说 明 如 表 19-2 所 示 。 
表 19-2 ”程序 代码 说 明 


使 用 map 处 理 每 一 项 数据 ， 以 lambda 语句 创建 匿名 函数 传 入 x 参 
数 。 在 匿名 函数 中 用 x[2] 筛选 出 只 有 性 别 数据 的 数据 集 


筛选 出 不 重复 的 数据 


CI02 显示 年 龄 + 性 别 字 段 不 重复 的 数据 


我 们 也 可 以 使 用 多 个 字段 来 显示 不 重复 的 数据 ， 例 如 下 面 的 范例 显示 年 龄 + 性 别 字段 不 
重复 的 数据 。 下 列 指令 在 匿名 函数 中 使 用 (x[1],x[2]) 来 指定 年 龄 + 性 别 字段 不 重复 的 数据 。 


In [55]: userRDD.map( lambda x:(x[1],x[2]) ).distinct().take(20) 


Out[55]: [(u'30', u'F'), 
(u'48' 


(u'35', u'F'), 
(u'35', u'M'), 
(u'43', u'F'), 
(u'18', u'M') 


咀 


以 上 运行 结果 会 显示 年 龄 + 性 别 字 段 不 重复 的 数据 ， 实 际 的 项 数 很 多 ， 限 于 版 面 ， 这 是 
只 列 出 几 项 数据 。 
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19.8.2 ”Spark SQL 显示 不 重复 的 数据 
人 IOi) 嘻 示 性 别 字段 不 重复 的 数据 


在 Spark SQL 中 ， 在 字段 名 之 前 使 用 distinct 关键 词 来 设置 显示 不 重复 的 数据 。 例 如 ， 
在 下 列 程序 代码 中 ，distinct gender 即 为 设置 显示 性 别 字 段 不 重复 的 数据 。 


In [56]: sqlContext.sql(" SELECT distinct gender FROM user_table").show() 


人 2 显示 年 龄 + 性 别 字段 不 重复 的 数据 
下 列 Spark SQL 语句 使 用 distinct age, gender 来 设置 显示 年 龄 + 性 别 字 段 不 重复 的 数据 。 


In [57]: sqlContext.sql(" SELECT distinct age,gender FROM user table").show() 
ET + 
lagelgender| 
+---+------ + 
1 391 FI 
1 481 Ml 
1 261 M| 
1 281 M| 
1 541 MI 
1 661 MI 
1 sel MI 
1 531 Fl 


19.8.3 ”Dataframes 显示 不 重复 的 数据 
人 Di 时 示 性 别 字段 不 重复 的 数据 


下 列 指令 使 用 DataFrames 显示 不 重复 的 数据 ,select("gender") 选 择 要 显示 的 字段 , .distinct() 
去 除 重复 的 数据 。 


In [58]: user_df.select("gender").distinct().show() 


C02 时 示 年 龄 + 性 别 字段 不 重复 的 数据 


下 列 指 令 使 用 DataFrames 显示 年 龄 + 性 别 字 段 不 重复 的 数据 ，select("age","gender") 选 
择 要 显示 的 字段 ，.distinct() 去 除 重复 的 数据 。 
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In [59]: user df.select("age","gender").distinct().show() 
+---+------ + 
lagelgender| 
2 + 
1 391 Fl 
1 481 NM 
1 261 MI 
| 281 MI 
1 541 M| 
1 661 M| 


分 组 统计 数据 


在 实际 运用 中 ， 我 们 常常 需要 按照 一 个 或 多 个 字段 进行 分 组 统计 。 


19.9.1 RDD 分 组 统计 数据 
TI01 按照 性 别 统计 数据 
在 RDD 中 要 进行 数据 的 分 组 统计 ， 必 须 使 用 map/reduce。 例 如 ， 按 照 性 别 统计 数据 。 


In [60]: userRDD.map(lambda x: (x[2],1)) \ 
.reduceByKey(lambda x,y: x+y).collect() 


Out[60]: [(u'M', 678), (uy'F', 273)] 


程序 代码 说 明 如 表 19-3 所 示 。 
表 19-3 ”程序 代码 说 明 


userRDD 每 一 项 数据 通过 map 对 应 产生 (性 别 ,1) 的 数 


据 集 ， 例 如 ('M', 1) 或 (F', 1) 


人 62 按照 性 别 、 职 业 来 统计 数据 
下 列 程序 代码 按照 性 别 、 职 业 来 统计 数据 。 


In [61]: userRDD.map(lambda x: ((x[2],x[3]),1)).reduceByKey(lambda x,y: x+y).collect() 


Out[61]: [((u'F', u'healthcare’), 11), 
((u'F’, u'librarian’), 29), 
((u'F', u'student'), 60), 
((u'F', u'engineer’), 2), 
((u'M', u'executive'), 29), 
((u'M', u'healthcare’), 5), 
((u'M', u'marketing'), 16), 
((u'M', u'lawyer'), 19), 
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以 上 程序 代码 说 明 如 表 19-4 所 示 。 
表 19-4 ”程序 代码 说 明 


userRDD. userRDD 每 一 项 数据 通过 map 对 应 产生 (( 性 别 , 职 业 ), 1) 的 数 
map(lambda x: ((x[2], x[3]), 1) 据 集 ， 例 如 ((F', 'healthcare"), 1) 或 ((M', 'executive'),1) 
TeduceByKey(lambda x, y: x+y) 将 数据 集 分 别 按照 (性 别 , 职业 ) 计算 总 和 来 进行 统计 


19.9.2 Spark SQL 分 组 统计 数据 

当 使 用 Spark SQL 统计 数据 时 ， 相 对 于 RDD 简单 得 多 。 
人 To01 按照 性 别 统 计数 据 

下 列 Spark SQL 语句 按照 性 别 统计 数据 : 


In [62]: sqlContext.sql(""" 
SELECT gender ,count(*) counts 
FROM user table 
GROUP BY gender""").show() 


+------ +------ + 


lgender|counts| 
+------ +------ 十 
1 FI 2731 
1 MI 6761 
+------ +------ + 


以 上 SQL 语句 说 明 如 表 19-5 所 示 。 
表 19-5 ”SQL 语句 说 明 


程序 代码 说 明 


设置 显示 性 别 ，count(*) 计算 总 和 ， 将 count(*) 别名 设置 为 counts 
Count(*) counts 


(DT02 按照 性 别 、 职 业 统计 数据 


下 列 Spark SQL 语句 按照 性 别 、 职 业 统计 数据 : 
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In [63]: sqlContext.sql(™" 
SELECT gender,occupation,count(*) counts 
FROM user table 
GROUP BY gender,occupation 
“show(100) 
和 as 二 sy 
Igender| occupationlcounts| 
eeease Hoeseness ese + 
1 MI executivel 29] 
1 MI educator1 691 
1 FI nonel 41 
1 Flentertainment| 21 
1 FI retired| 11 


以 上 SQL 语句 说 明 如 表 19-6 所 示 。 
表 19-6 ”SQL 语句 说 明 


SELECT gender,occupation, 设置 显示 性 别 、 职 业 字段 , count(*) 计算 总 和 , 并 将 count(*) 别 
count(*) counts 名 设置 为 counts 


FROM user_table 读 取 User Table 


19.9.3 ”Dataframes 分 组 统计 数据 


全 J01 Dataframes 按照 性 别 分 组 统计 数据 


以 下 DataFrames 程序 代码 按照 性 别 统计 数据 : 


In[61]: user_df.select("gender").8roupby("gender").Count0.show() 


+ 
lgenderlcount| 
4------ Wb 
1 Fl 273| 
1 MI 67e| 


以 上 程序 代码 说 明 如 表 19-7 所 示 。 


表 19-7 ”程序 代码 说 明 
程序 代码 说 明 


user df 使 用 select("gender") 设置 性 别 字段 分 组 统计 


设置 按照 性 别 gender 进行 分 组 统计 
.count() 进行 分 组 统计 
.show() 显示 数据 


人 Dataframes 按照 性 别 、 职 业 统计 数据 


以 下 DataFrames 程序 代码 按照 性 别 、 职 业 统计 数据 : 
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In [65]: User_df select("gender","occupation")- 和 
groupby("gende! cupation"). \ 
countl). \ 
orderBy("gender","occupation"). \ 
show(100) 

a Ss ee j 
lgender| occupation|count| 
4 Ye #----- + 
1 Fladministrator| ”361 
1 Fl artiscl 131 
1 Fl educator| 261 
1 Fl engineer| -21 
1 Flentertainment| 21 
1 Fl executivel 3| 


以 上 程序 代码 分 为 多 行 ， 所 以 用 “\” 符 号 连接 命令 ,说明 如 表 19-8 所 示 。 
表 19-8 程序 代码 说 明 
程序 代码 说 明 


groupby("gender","occupation"). 设置 按照 性 别 、 职 业 进 行 分 组 统计 


Nm 


orderBy("gender","occupation"). 按照 "gender","occupation” 排序 


C3703 以 crosstab 按照 性 别 、 职 业 统计 数据 


执行 之 前 的 指令 会 让 数据 显示 很 长 ， 不 易 阅 读 ， 我 们 可 以 使 用 crosstab 按照 性 别 、 职 业 
统计 数据 。 


In [66]: user_df.stat.crosstab("occupation","gender" ).show(30) 


+----------------- + 
loccupation_gender| FI HI 
+----------------- ac 


1 scientist| 3| 28| 
1 student| 6611361 
1 writerl 19| 26| 
1 salesman| 3| 9| 
1 retired| 1| 13| 
| administrator| 361 43| 
1 programner| 6| 691 
1 doctorl el ?1 
1 homemaker| 51 1| 
1 executive| 31 29| 
1 engineer| 2| 65| 
| entertainnent| 21 161 
1 marketing| 191 161 
1 technician| 1| 26| 
1 artist| 131 15| 
1 librarian| 291 221 
1 lawyer| 2| 161 
1 educator| 261 691 
1 healthcarel 11| 5| 
1 nonel 4| 51 
1 other| 361 691 
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从 以 上 运行 结果 可 以 发 现 这 种 方式 更 易 阅 读 。 


国生 Join 联接 数据 


如 图 19-28 所 示 ，user table 有 zipcode 字段 ， 但 是 该 字段 是 数字 ， 对 于 用 户 毫 无 意义 。 


| 241| MItechnician1| 
1 531 Fl other1| 
| 231 MI| writer1| 
1 
1 


241| M|technician| 
331 Fl other1| 
only showing top 5 rows 
图 19-28 zipcode 字段 对 用 户 无 意义 
如 果 希 望 知 道 用 户 来 自 于 哪 一 个 州 ， 那 么 我 们 必须 先 下 载 ZipCode 数据 表 ， 然 后 联接 
ZipCode 数据 表 。 


19.10.1 创建 ZipCode 
人 ED) 下 载 ZipCode 数据 集 
首先 ， 以 下 列 指令 下 载 ZipCode 数据 集 : 


cd ~/pythonwork/PythonProject/data 
wget http://federalgovernmentzipcodes.us/free-zipcode-database-Primary.csv 


运行 后 结果 如 图 19-29 所 示 。 


hduser@master: ~/pythonwork/Pythonproject/data 


hduser@master:~$ cd ~/pythonwork/Pythonproject/data 
hduser@master:~/pythonwork/Pythonproject/data$ wget http://federalgovernmentzip: 
odes.us/free-zipcode-database-primary.csv 

- -2616-98-13 17:16:16-- http://federalgovernnentzipcodes.us/free-zipcode-datab: 
lse-Primary.csv 

正在 解析 主机 federalgovernmentzipcodes.us (federalgovernmentzipcodes.us)... 54. 
48.51.94 

| 正在 连接 federalgovernmentzipcodes.us (federalgovernmentzipcodes.us)|54.148.51. 


4| :89... 已 连接 。 

已 发 出 HTTP 请 求 ， 正 在 等 待 回应 .. .266 Ok 

长 度 : 4318368 (4.1M) [application/octet-stream] 
|saving to: ‘free-zipcode-database-Primary.csv’ 


=>] 4,318,368 1.13MB/s in 3.8s 


zel6-e8-13 17:16:14 (1.68 MB/s) - ‘free-zipcode-database-Primary.csv’ saved [43: 
8368/14318368] 


图 19-29 下 载 ZipCode 数据 集 
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302 复制 到 HDFS 


> ”复制 到 HDFS data 目录 
hadoop fs -copyFromLocal free-zipcode-database-Primary.csv /user/hduser/data 


> HDFS data 目录 
hadoop fs -ls /user/hduser/data/free-zipcode-database-Primary.csv 


hduser@master: ~/pythonwork/Pythonproject/data 


duser@master:~/pythonwork/Pythonproject/data$ hadoop fs -copyFromLocal free-zip 
ode-database-Primary.csv /user/hduser/data 

duser@master :~/pythonwork/Pythonproject/data$ hadoop fs -ls /user/hduser/data/ 
ee-zipcode-database-Prinary.csv 

-rw-r--r-- 3 hduser supergroup 4318398 2616-98-13 17:27 /user/hduser/data/ 
ee-zipcode-database-Prinary.csv 


GJ03 读 取 并 查看 数据 


利用 sc.textFile 读 取 csv 文件 ， 并 使 用 take(2) 查看 前 两 项 数据 ， 即 字段 名 称 与 数据 ， 
如 图 19-30 所 示 。 


In [16]: Path=flle:/home/hduser/pythonworklpynotebook 
rawDataWithHeader = sc.textFile(Path+"data/free-zlpcode-database-Primary.csy”) 
rawDataWithHeader .take(2) 


TANDARD", "AIBONITO", "PR", "PRIMARY", 18.14, -66.26, "NA-US-PR-AIBONITO", 


图 19-30 读 取 并 查看 数据 
以 上 运行 结果 的 第 一 项 数据 是 字段 名 ， 所 以 我 们 必须 在 下 一 步骤 去 除 表 头 。 
人 4 圳 除 第 一 项 数据 
因为 第 一 项 数据 是 字段 名 ， 所 以 我 们 要 先 删 除 : 


In [70]: header = rawDataWithHeader.first() 
rawData = rawDataWithHeader.filter(lambda x:x !=header) 
rawData.first() 


Out[70]: ~ ' "99795", "STANDARD", "AIBONITO", "PR", "PRIMARY", 18.14, -66.26, "NA-US-PR-A 
IBONITO", "false",,,' 


以 上 运行 结果 显示 字段 名 已 经 被 删除 。 程 序 代码 详细 说 明 如 表 19-9 所 示 。 


表 19-9 
程序 代码 说 明 


rawData = rawDataWithHeader 以 filter 配合 lambda 语句 ， 创 建 匿名 函数 x 为 参数 ， 
filter(lambda x:x !=header) 以 x !=header 筛选 删除 header 
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删除 “"” 符 号 


上 一 步骤 运行 结果 的 每 一 个 文字 字段 前 后 都 有 “"” 符 号 ， 我 们 将 在 下 一 步骤 删除 双 引 号 
“"”。 以 下 程序 代码 用 rawData.map( ) 处 理 每 一 项 数据 ， 并 在 lambda 匿名 函数 中 使 用 
x.replace(","") 删 除 “"” 符 号 : 


In [71]: rData=rawData.map(lambda x: x.replace(™\"", "")) 
rData.first() 


Out[71]: u"96795, STANDARD, AIBONITO, PR, PRIMARY, 18.14, -66.26, NA-US-PR-AIBONITO, false,,,' 


从 以 上 运行 结果 可 以 看 出 双 引 号 “"” 已 经 删除 。 另 外 ， 还 可 以 发 现 每 一 个 字段 都 以 “,” 
符号 作为 分 隔 ， 我 们 将 在 下 一 步骤 获取 每 一 个 字段 。 


G06 获取 每 一 个 字段 


接 下 来 ， 我 们 用 rData.map 处 理 每 一 项 数据 ， 并 在 lambda 匿名 函数 中 使 用 x.split(",") 
以 “,” 符 号 分 隔 来 获取 每 一 个 字段 


In [72]: ZipRDD =rData.map(lambda x: x.split(",")) 
ZipRDD.first() 


Out[72]: [u'ee7e5', 
U'STANDARD '， 
U'AIBONITO'， 
UPR'， 
UPRIMARY' 
U'18.14', 
U'-66.26', 
U'NA-US-PR-AIBONITO", 
u'false', 
u'r 
ur, 


由 器 


19.10.2 创建 zipcode_ tab 


我 们 已 经 创建 ZipRDD， 接 下 来 使 用 此 RDD 创建 DataFrames。 


人 1) 创建 ZipCode Row 的 Schema 


在 创建 DataFrames 之 前 ， 我 们 必须 使 用 Row 创建 每 一 个 字段 名 与 数据 类 型 。 


In [19]: from pyspark.sql Import Row 
zlpcode_data =ZipRDD .map(lambda p: 
Row( 


zipcode=Int(p[o]), 
zlpCodeType=p[1]， 
city=p[2], 
state=p[3] 

) 


) 
Zipcode_data.take(5) 
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Out[19]: [Row(city=u'AIBONITO', state=u'PR', zipCodeType=u'STANDARD', zipcode=795), 
Row(city=u'ANASCO', state=u'PR', zipCodeType=u"STANDARD', zipcode=619), 
Row(city=u'ANGELES', state=u'PR', zipCodeType=u'PO BOX', zipcode=611), 
Row(city=u'ARECIBO', state=u'PR', zipCodeType=u'STANDARD', zipcode=612), 
Row(city=u'ADJUNTAS', state=u'PR', zipCodeType=u'STANDARD', zipcode=691)] 


以 上 程序 代码 的 详细 说 明 如 表 19-10 所 示 。 


表 19-10 ”程序 代码 说 明 


程序 代码 说 明 


from pyspark.sql import Row 导入 Row 模块 


zipcode_data = 使 用 ZipRDD.map 处 理 每 一 项 数据 , 以 lambda 语句 创建 匿名 函数 
ZipRDD.map(lambda p: 传 入 p 参数 (每 一 项 数据 ) 
Row( 

zipcode=int(p[0]), 


> 在 匿名 函数 中 ， 使 用 Row 传 入 每 一 个 字段 ， 创 建 Row 数据 类 型 。 
ZipCoreType nll, 其 中 ，p[0] 是 数字 ， 转 换 为 int， 其 余 是 String， 不 用 转换 
city=p[2], state=p[3] 


zipcode_data.take(5) 查看 前 5 项 zipcode 


人 FI02 创建 ZipCode Row 的 Schema 


我 们 已 经 将 数据 转换 为 Row 数据 类 型 , 之 后 就 可 以 用 Row 数据 类 型 创建 DataFrames 了 : 


In [72]: zipcode_df = sqlContext.createDataFrame(lzipcode_data ) 
zipcode_df.printSchema() 
root 
1-- city: string (nullable = true) 
1-- state: string (nullable = true) 
|-- zipcodeType: string (nullable = true) 
1-- zipcode: long (nullable = true) 


以 上 程序 代码 说 明 如 下 : 


@ 首先 ， 使 用 sqlContext. 


createDataFrame( ) 方法 传 入 zipcode data 数据 ， 创 建 
DataFrame 。 


@ ”然后 ,使 用 .printSchema() 查看 DataFrames 的 Schema。 
C703 创建 登录 临时 表 


之 前 已 经 创建 了 DataFrames。 接 下 来 ,我 们 将 使 用 DataFrames 登录 临时 表 , 然后 查看 前 10 
项 数据 : 
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In [75]: zipcode_df.registerTempTable("zipcode_table") 

zipcode_df.show(10) 

a es 和 ea We + 
1 city|statelzipcodeType|zipcodel 
qu ee Padi sa + 
| AIBONITO| PRI STANDARD| 7651 
| ANAsco| PR| STANDARD| 619| 
| ANGELES| PRI Po BOX| 611| 
| ARECIBO| PR| STANDARD| 612| 
| ADJUNTAS| PR| STANDARD| 691| 
| CASTANER| PRI PO BOX| 6311 
| AGUADA| PR| STANDARD| 6e2| 
IAGUADILLA| PRI STANDARD| 663| 
IAGUADILLA| 。 PRI po Box| 。 6941 
IAGUADILLA| 。 PRI po Boxl 695] 
和 ee cao aa + 
only showing top 19 rows 


19.10.3 Spark SQL 联接 zipcode_table 数据 表 


前 一 小 节 ， 我 们 已 经 登录 了 zipcode_df 临时 表 ， 还 有 之 前 登录 的 user_table 暂 存 数据 
表 。 我 们 可 以 将 这 两 个 数据 表 进 行 联接 。 


(CTT01 查看 纽约 的 用 户 数据 
以 下 程序 代码 用 user_table 左 联 接 zip_table， 查 看 纽约 州 的 用 户 数据 : 


In [77]: sqlContext.sql(™™™ 
SELECT U.* ,Z.city,2.state 

FROM user_ table u 

LEFT JOIN zipcode tablez ON uzipcode = zzipcode 

WHERE zstate='NY' 


"™").show(10) 


4- 
lagelgender| ”occupationluserid1zipcode1 citylstatel 
+---4------ ee ui ee Pp es + 
1 451 Mladministrator| 。 48| 12559| NEWBURGH| NY| 
1 521 Fl librarian| 294| 199691 NYACK| NY| 
1 421 MI other| 766| 16960| NYACK| NMYI 
1 351 Fl other| ”7661 14211| BUFFALO| NY| 
1 321 Fl other| 155| 11217| BROOKLYN| NY| 
1 391 FI writerl 5571 11217| BROOKLYN| NY]| 
1 271 MI marketing| 896| 11217| BROOKLYN| NY| 
1 351 Fl educator| 456| 117581MASSAPEQUAI NY| 
1 281 FI student| 236| 14476| KENDALL| NY| 
1 231 Nladministrator| Se9| 199111 NEW YORK1 NY] 
4 pp 4------ sa Po + + 


only showing top 19 rows 


以 上 SQL 语句 的 详细 说 明 如 表 19-11 所 示 。 


表 19-11 SQL 语句 说 明 


说 明 


SQ 
SELECT u.,z.city,z.state 显示 user_table 所 有 字段 ， 再 加 上 zipcode table 的 city 与 state 字段 
寺 


LEFT JOIN zipcode table z LEFT JOIN 联接 zipcode table 并 取 别 名 为 z 
ON u.zipcode = z.Zzipcode 联接 条 件 uzipcode =z.zipcode 


FROM user tableu 读 取 user table 并 取 别 名 为 u 
WHERE zstate=NY" 查询 条 件 state 是 纽约 


454 


第 19 章 ”Python Spark SQL、DataFrame、RDD 数据 统计 与 可 视 化 全 


I02 按照 州 统计 
有 了 联接 数据 表 ， 除 了 可 以 查询 某 一 个 州 的 用 户 ， 还 可 以 按照 州 来 统计 。 


In [93]: sqlContext.sql(""" 
SELECT zstate .count(*) 
FROM user tableu 
LEFT JOIN zipcode tablez ON uzipcode =zzipcode 
GROUP BY z.state 
"0.showl60) 

4----- 4-------- + 
1statelcount(1)1 
+ + + 
1 Azl 14| 
1 scl 11| 
1 LAl 51 
1 NI 781 
1 NI 161 
1 ocl 141 
| orl 261| 


以 上 SQL 语句 的 详细 说 明 如 表 19-12 所 示 。 


表 19-12 ”SQL 语句 说 明 
SQL 语法 说 明 


LEFT JOIN zipcode table z LEFT JOIN 联接 zipcode table 并 取 别 名 为 z 
ON u.zipcode = z.zipcode 设置 联接 条 件 u.zipcode = z.zipcode 


19.10.4 DataFrame user_df 联接 zipcode_df 


之 前 我 们 使 用 Spark SQL 的 临时 表 进 行 联接 事实 上 我 们 也 可 以 使 用 DataFrame 进行 联 
接 。 以 下 范例 ， 我 们 要 将 两 个 DataFrames 进行 联接 。 如 图 19-31 所 示 ，user_df 联接 
zipcode_df， 联 接 的 结果 是 创建 另外 一 个 DataFrames， 即 joined_df。 


19-31 对 user_df、zipcode_df 进行 联接 示意 图 
Foi user df 联接 zipcode_ df 


接 下 来 ， 将 user_df 联接 zipcode_df， 联 接 的 结果 会 创建 另外 一 个 DataFrames (joined_ 
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df)， 如 图 19-32 所 示 。 


In [76]: joined_df=user_df.join(zipcode_df, \ 
user_df.zipcode == zipcode_df.zipcode, "left_outer") 
joined_df.printSchemal() 


age: long (nullable = true) 
gender: string (nullable = true) 
occupation: string (nullable = true) 
userid: long (nullable = true) 

= true) 


state: string (nullable = true) 
zipCodeType: string (nullable = true) 
zipcode: long (nullable = true) 


19-32 user_df 联接 zipcode_df 


从 图 19-32 可 以 看 出 joined_df 是 由 user_df 与 zipcode_df 组 成 的 。 以 上 程序 代码 说 明 


如 表 19-13 所 示 。 


表 19-13 ”程序 代码 说 明 
程序 代码 说 明 


joined df=-user dfjoin(zipcode df user_df 联接 zipcode df 创建 joined df 
user_df.zipcode 一 zipcode_df.zipcode 设置 联接 条 件 


的 力 K TO 
joined_df.printSchema() 打印 joined_df 的 schema 


D02 查看 joined df dataframe 


查看 joined_df dataframe 显示 前 10 项 数据 : 


In [81]: joined df.show(10) 
+---+------ +------------- +------ +------- +------------- +----- +----------- +------- + 
lagelgender| occupation|userid|zipcodel city|state|zipCodeTypelzipcodel| 
+ +------------- +------ +------- +------------- +----- +----------- +------- + 
1 531 Fl other| 2| 94043|MOUNTAIN VIEW| CA| STANDARD| 94943| 
1 531 MI lawyer| 19| 967631 CERRITOS| CA| STANDARD| 96793| 
1 231 MI writer| 3| 32667| ORANGE PARK| FL| pO BOX| 32667| 
1 421 MI executivel 6| 981611 SEATTLE| WA| STANDARD| 98161| 
1 361 Mladministrator| 8| 95291| BENNINGTON| VT| STANDARD| 5261]| 
1 241 MI technician| 41 435371 MAUMEE| OH| STANDARD| 43537| 
1 391 Fl other| 11| 36329| ATLANTA| GA| STANDARD| 39329| 
1 241 MI technician| 1| 85711| TUCSON| AZ| STANDARD| 85711| 
1 571 Mladministrator| 71 91344|GRANADA HILLS| CA| STANDARD| 91344| 
1 331 Fl other| 5| 15213| PITTSBURGH| PA| STANDARD| 15213| 
+ 
only showing top 19 rows 


委 选 纽约 用 户 数 据 
我 们 可 以 将 .filter 用 于 筛选 纽约 用 户 数据 : 
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In [82]: joined _df.filter("sta 
+---+------ js 
lagelgender| occupation| 
Ws se Ps he es de es PE 站 
1 451 Mladministrator| 48| 12556|1 NEWBURGH| NY| STANDARD| 125591 
1 521 Fl librarian| 294| 169661 NYACK| NY| STANDARD| 16969| 
1 421 MI other| 766| 169661 NYACK| NYI STANDARD| 169661 
1 351 FI other| “7661 14211| BUFFALO| NY| STANDARD| 14211| 
1 321 FI other| 155| 11217| BROOKLYN| NY| STANDARD| 11217| 
1 361 FI writer| 557| 11217| BROOKLYN| NY| STANDARD| 112171 
1 271 MI marketing| 866| 11217| BROOKLYN| NY| STANDARD| 11217| 
1 351 Fl educator| 450| 117581MASSAPEQUA| NY| STANDARD| 117581 
1 281 FI student| 236| 14476| KENDALL| NY| STANDARD| 144761 
1 231 Mladministrator| 5Se9| 16911| NEW YORK| NY| STANDARD| 196111 
和 人 pp 和 二 二 ep i + 
only showing top 16 rows 


C04 按照 州 分 组 统计 
我 们 可 以 使 用 .groupBy("state") 执行 州 分 组 统计 : 


In [94]: GroupByState_df=joined_df.groupBy("state").count[) 
GroupByState_df.show(60) 
+----- t= + 
lstatelcount| 
4 +--=-- + 
1 Az| 141 
1 scl 11| 
| Al 6l 
1 MNI 781 
| MI 3181| 
1 pcl 3441 
| oR| 29] 


911 使 用 Pandas DataFrames 绘图 


Python 常用 的 数据 处 理 Pandas 套件 也 提供 DataFrames 功能 。 我 们 介绍 如 何 将 Spark 
DataFrames 转换 为 Pandas DataFrames， 并 使 用 Pandas DataFrames 配合 matplotlib 模块 ， 将 
数据 绘制 成 直方 图 、 圆 饼 图 。 


19.11.1 按照 不 同 的 州 统计 并 以 直方 图 显示 
我 们 将 之 前 创建 的 GroupByState_df 转换 为 Pandas DataFrames。 
人 Dlo1 转换 为 Pandas DataFrames 


我 们 可 以 使 用 .toPandas() 将 GroupByState_df 转换 为 Pandas DataFrames, 并 设置 索引 是 
state 州 字 段 : 
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In [80]: import pandas as pd 
GroupByState pandas df =GroupBystate df.topandas().set index('state’) 
GroupByState_pandas_df 


Outl80]: count 


state 


MS |3 


MT |2 
TN 


AE |1 


NC |19 
ND |2 


以 上 运行 结果 中 有 54 项 数据 ,不 过 这 里 只 显示 前 6 项 ,以 上 程序 代码 详细 说 明 如 表 19-14 
所 示 。 


表 19-14 SQL 语法 说 明 
说 明 


SQL 语 
import pandas as pd 
GroupByState_ pandas_df= 导入 pandas 模块 


GroupByState_df.toPandas() GroupByState_df 使 用 .toPandas() 转换 为 Pandas DataFrames 
全 有 RS 设置 Pendos Doarame 的 家 引 为 seite 
GroupByState_pandas df 查看 Pandas DataFrame GroupByState_pandas_df 


人 2 用 Pandas DataFrames 绘 出 直方 图 Bar Chart 


接 下 来 , 我 们 使 用 之 前 创建 的 按照 州 统 计 用 户 人 数 的 Pandas Dataframes， 配合 matplotlib 
模块 将 数据 绘 成 直方 图 : 


In [84]: Import matplotlib.pyplot as pit 
%matplotlib inline 
ax= GroupByState_pandas_df [count'] \ 
-plot(kind='bar',title ="State " ,figsize=(12,6),legend=True, fontsize=12) 
plt.show() 


State 


TET 


ate 


以 上 程序 代码 的 详细 说 明 如 表 19-15 所 示 。 
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表 19-15 程序 代码 说 阴 
程序 代码 说 阴 


import matplotlib.pyplot as plt 导入 matplotlib.pyplot 模块 


A 将 图 形 显示 在 Ipython Notebook 中 。 如 果 不 加 入 此 命令 ， 


ax = GroupByState_ pandas_df ['counts'] 设置 要 绘图 的 是 counts 计算 总 和 字段 


.plot(kind="bar’, 绘图 种 类 是 bar chart 直方 图 
title ="State", 图 形 的 标题 是 State 

figsize=(12,6), 设置 图 形 大 小 

legend=True, 设置 要 显示 图 例 

fontsize=12) 设置 字号 


plt.show() 


19.11.2 ”按照 不 同 的 职业 统计 人 数 并 以 圆 饼 图 显示 
接 下 来 ， 我 们 将 按照 不 同 的 职业 统计 人 数 并 以 圆 饼 图 显示 。 
个 DIo1 创建 Occupation_df 


我 们 使 用 sqlContext.sql() 输入 SQL 语句 ， 按 照 不 同 的 职业 统计 人 数 并 创建 
Occupation df DataFrame。 《〈 因 为 项 数 很 多 ， 所 以 以 下 运行 结果 只 显示 部 分 界面 。) 


In [87]: Occupation_df=sqlContext.sql(""" 
SELECT u.occupation ,count(*) counts 
FROM user tableu 
GROUP BY occupation 


Occupation_dfshow(30) 


+------------- +------ + 
| occupation|counts| 

------------- +------+ 
| librarian| 511 
1 retired| 141 
1 lawyer | 121 
1 nonel 9 引 
| writer| 451 
| programmer| 661 


人 2 创建 Occupation pandas df 


我 们 使 用 Occupation_dftoPandas0) 转换 为 Pandas DataFrames 并 查看 Occupation 
pandas_df。《〈 因 为 项 数 很 多 ， 以 下 运行 结果 只 显示 部 分 界面 。) 


459 


寿 :， Python+Spark 2.0+Hadoop 机 器 学 习 与 大 数据 实战 


In [86]: Occupation_pandas_df =Occupation_df.topandas().set_index('occupation') 
Occupation_pandas_df 


Out[86]: a 


occupation 


administrator | 79 


programmer | 66 


salesman 12 
doctor 7 
scientist 31 


以 上 程序 代码 的 详细 说 明 如 表 19-16 所 示 。 
表 19-16 SQL 语句 说 明 
SQL 语法 


Occupation_df 使 用 .toPandas() 转换 为 Pandas DataFrames 
Occupation pandas df 


Bet adienc eonpalion' i set_index 设置 Pandas DataFrames 的 索引 是 occupation 职业 


Occupation_pandas_df 查看 Pandas DataFrames Occupation pandas_df 


ER3 用 Pandas DataFrames 绘 出 圆 饼 图 PieChart 


Occupation _pandas_df= 
Occupation_df.toPandas() 


按照 不 同 的 职业 统计 用 户 人 数 并 以 圆 饼 图 显示 : 


In [87]: ax=Occupation _pandas_dffcounts '].plot(kind='pie' 
title ="occupation",figsize=(8,8),startangle=90,autopct="%1.1f%%') 
ax.legend(bbox_to_anchor=(1.05, 1), loc=2, borderaxespad=0.) 
plt.show 


occupation 


administrator 
programmer 
Salesman 
doctor 
Scientist 
wyer 
homemaker 
retired 
engineer 
none 

writer 
educator 
cther 
executive 


‘administrator rasten 


chnican entertainment 
artist 
marketing 
technician 
udent 
healthcare 
librarian 


以 上 程序 代码 的 详细 说 明 如 表 19-17 所 示 。 
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表 19-17 程序 代码 说 阴 


ax =Occupation_pandas_dff'counts']. 设置 要 绘图 的 是 counts 计算 总 和 字段 
plot(kind="pie', 绘图 种 类 是 圆 饼 图 PieChart 
title="occupation", 图 形 的 标题 是 occupation 
figsize=(8,8), 设置 图 形 大 小 


startangle=90, 设置 图 形 旋转 角度 
autopct="%1.1f%%') 设置 显示 圆 饼 图 %。 


ax.legend(bbox_to_anchor=(1.05, 1), loc=2, 
borderaxespad=0.) 


plt.show() 


本 章 介绍 了 Python Spark RDD、DataFrames 与 Spark SQL 基本 命令 ， 并 使 用 DataFrames 
与 Spark SQL 进行 数据 统计 。 在 第 20~22 章 , 我 们 将 介绍 Spark ML pipeline: Dataframes- based 
机 器 学 习 API。 
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第 20 章 
Spark ML Pipeline 
机 器 学 习 谊 程 二 元 分 类 


本 章 将 使 用 第 13 章 二 元 分 类 分 析 StumbleUpon 数据 集 
示范 如 何 使 用 Spark ML Pipeline 机 器 学 习 流程 二 元 分 类 ， 以 
决策 树 分 类 预测 网 页 是 暂时 性 的 ephemeral》 还 是 长 青 的 

Cevergreen)， 并 且 使 用 训练 验证 与 交叉 验证 找 出 最 佳 模型 ， 
是 高 预测 准确 度 。 最 后 还 将 介绍 如 何 使 用 随机 森林 分 类 
(RandomForestClassifier) 算法 进一步 提高 准确 率 。 


第 20 章 Spark ML Pipeline 机 器 学 习 流程 二 元 分 类 < 全 


> Spark ML Pipeline 机 器 学 习 流 程 


Spark 机 器 学 习 工 作 流程 (ML Pipeline ) 的 原理 就 是 将 机 器 学 习 的 每 一 个 阶段 〈 例 如 数 
据 处 理 、 进 行 训练 与 测试 、 建 立 Pipeline 流程 ) 形成 机 器 学 习 工作 流程 。 流 程 示意 图 如 图 20-1 
所 示 。 


训练 


预测 


pipeline fit0 


pipelineModel.transform() 


20-1 Spark ML Pipeline 机 器 学 习 流程 示意 图 
对 图 20-1 的 说 明 如 下 : 


(1) 建立 机 器 学 习 流 程 pipeline: 包含 4 个 阶段 (stages)， 前 3 个 阶段 是 数据 处 理 ， 
第 4 阶段 是 DesionTreeClassifier 机 器 学 习 分 类 算法 。 


StringIndexer: 将 文字 的 分 类 特征 字段 转换 为 数字 。 
OneHotEncoder: 将 一 个 数字 的 分 类 特征 字段 转 为 多 个 字段 。 
VectorAssembler: 将 所 有 的 特征 字段 整合 成 一 个 Vector 字段 。 
DesionTreeClassifier: 进行 训练 并 且 产 生 模 型 。 


(2) 训练 :“ 训 练 数据 DataFrame” 使 用 pipeline.fit() 进行 训练 。 系 统 会 按照 顺序 执行 每 
一 个 阶段 ， 最 后 产生 pipelineModel 模型 。pipelineModel 与 pipeline 类 似 ， 只 是 多 了 训练 后 
建立 的 模型 Model。 

(3) 预测 :“ 新 数据 DataFrame” 使 用 pipelineModel.transform() 进行 预测 。 系 统 会 按照 
顺序 执行 每 一 个 阶段 ， 并 使 用 DecisionTree Classifier Model 进行 预测 。 预 测 完成 后 ， 会 产生 
“预测 结果 DataFrame”。 
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> Spark 机 器 学 习 流程 ( ML Pipeline ) 的 名 词 说 明 如 下 : 

@ DataFrame: Spark ML 机 器 学 习 API 处 理 的 数据 格式 是 DataFrame， 我 们 必须 使 
用 Dataframe 存储 训练 数据 、 测 试 数据 ,最 后 预测 结果 也 是 DataFrame。 我 们 可 以 使 
用 sqlContext 读 取 文本 文件 创建 DataFrame， 或 将 RDD 转换 为 DataFrame， 也 可 
以 使 用 Spark SQL 来 操作 。DataFrame 可 以 存储 不 同 的 数据 类 型 ， 文 字 、 特 征 字段 
所 创建 的 向 量 vectors、label 标签 字段 。 

@ Transformer: 是 一 个 算法 , 可 以 使 用 transform 方法 将 一 个 DataFrame 转换 为 另 一 个 
DataFrame 。 

@ Estimator: 是 一 个 算法 ， 可 以 使 用 fit 方法 传 入 DataFrame， 产 生 一 个 Transformer。 

@ Pipeline: 可 以 串联 多 个 Transformers 与 Estimators 建立 ML 机 器 学 习 的 workflow 工 
作 流 程 。 

®@ 。 Parameter: 以 上 Transformers 与 Estimators 都 可 以 共享 相同 的 _ Parameter API。 


数据 准备 


我 们 将 使 用 IPython Notebook 示范 ， 因 为 使 用 IPython Notebook 具有 互动 性 的 好 处 ， 可 
以 看 到 指令 执行 后 的 结果 。 以 下 示范 在 本 地 运行 ， 读 者 也 可 以 参考 第 9.9 节 的 说 明 ， 在 不 同 的 
模式 运行 IPython Notebook。 读 者 可 以 参考 本 书 附 录 A 中 有 关 本 书 范例 程序 下 载 与 安装 的 说 
明 ， 下 载 本 章 IPython Notebook 的 范例 文件 来 进行 练习 。 
20.1.1 在 local 模式 执行 IPython Notebook 

在 “终端 ”程序 中 输入 下 列 命令 : 


> 切换 ipynotebook 工作 目录 
cd ~/pythonwork/ipynotebook 


> 在 本 地 运行 pyspark 使 用 IPython Notebook 界面 
PYSPARK_DRIVER_PYTHON=ipython PYSPARK DRIVER _ PYTHON OPTS="notebook" pyspark 


按 Enter 键 后 就 会 启动 浏览 器 ， 默 认 的 网 址 是 http://localhost:8888， 进 去 后 就 可 以 看 到 
IPython NoteBook 的 界面 。 


人 0i 配置 文件 读 取 路 径 
在 IPython Notebook 使 用 下 列 命令 配置 文件 读 取 路 径 : 
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In [1: global Path 
if sc.master[0:5]=="local" : 
Path="file:/home/hduserpythonworkyPythonProject” 
else: 
Path="hdfs://master:9000/user/hduser/" 


以 上 程序 判断 : 


@ 如果 sc.master[0:5] 是 "local"， 代 表 当 前 是 本 地 运行 ， 读 取 本 地 文件 。 
@ ”如果 sc.master[0:5] 不 是 "local"， 也 就 是 在 cluster 运行 ， 就 有 可 能 是 YARN client 
或 Spark stand alone， 读 取 HDFS 文件 。 


C02 读 取 文 本 文件 并 查看 数据 项 数 
下 列 指 令 使 用 sqlContextread 导入 文本 文件 ， 并 创建 row_df DataFrame。 


In [13]: Fow_df = sqlContext.read.format("csv") \ 
.Option("header", "true") \ 
.Option("delimiter", "\t") \ 
.load(Path+"data/train.tsv") 

print row_df.count() 


7395 


.format("csv") 指定 为 csv 格式 。 

.Option("header", "true") 指定 第 一 行 是 字段 名 。 
.option("delimiter", "\t") 指定 字段 的 分 隔 符 是 tab 键 "\t"。 
.load(Path+"data/train.tsv") 指定 要 加 载 文件 。 

导入 完成 后 ， 以 print row_df.count() 打 印 项 数 。 


以 上 运行 结果 显示 共计 7395 项 数据 。 我 们 可 以 看 到 sqlContext.read 导入 文本 文件 创建 
DataFrame， 比 第 13.4.2 小 节 用 sc.textfile 导入 文本 文件 创建 RDD 简单 得 多 。 


ER3 查看 Schema 


可 以 使 用 printSchema() 查看 导入 数据 的 Schema。 我 们 可 以 看 到 所 有 字段 都 是 string 数 
据 格式 ， 因 为 字段 较 多 ， 这 里 只 截取 部 分 界面 ， 如 图 20-2 所 示 。 


In [29]: row_df.printSchema() 


"| url: GEFHmarraare = tros 所 有 字段 都 是 string 数据 格式 


1-- urli 中 g (nullable = true) 

1-- boilerplate: string (nullable = true) 

1-- alchemy_category: string (nullable = true) 

1-- alchemy_category_score: string (nullable = true) 
1-- avglinksize: string (nullable = true) 

1-- commonlinkratio_1: string (nullable = true) 

1-- commonlinkratio_2: string (nullable = true) 

1-- commonlinkratio_3: string (nullable = true) 

1-- commonlinkratio 4: string (nullable = true) 


图 20-2 ”查看 Schema 
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人 04 查看 前 10 项 数据 


DataFrames 字段 数据 太 多 ， 我 们 使 用 Select 选取 要 显示 的 字段 ， 然 后 查看 前 10 项 数据 ， 
如 图 20-3 所 示 。 


In [38]: row_df.select "url','alchemy_category','alchemy_category_score','is_news','label' .show(10) 


lhttp oomb 


: 9.789131| 3 el 
Ihttp://www.popsci. recreation| 9.5741471 dl 1| 
|http://www.menshe. .. health| 08.996526| 1| 1| 
Ihttp://www.dumbli,...| health| 6.8612481 1| 1| 
Ihttp://bleacherre...| sports| 0.719157| 1| 9| 
Ihttp://www.conven,..| ?1 ?1 ?1 el 
Ihttp://gofashionl...|arts_entertainment| 8.221111| 1 1| 


|http://www.inside...| 
|http:;//www,valetm,...| 
Ihttp://www.howswe...| 


only showing top 19 rows 


20-3 查看 前 10 项 数据 


在 图 20-3 中 ， 我 们 可 以 看 到 很 多 都 是 “?”， 下 一 小 节 将 介绍 如 何 处 理 。 


20.1.2 ”编写 DataFrames UDF 用 户 自 定义 函数 


DataFrames UDF 是 User Define Function 的 简写 ， 也 就 是 用 户 自 定义 函数 。 我 们 将 编写 
UDF 将 “?” 转 换 为 “0”。 


人 Xi) 编写 DataFrames UDF 用 户 自 定义 函数 


我 们 使 用 下 列 指令 编写 DataFrames UDF 用 户 自 定义 函数 。 


In [41]: from pyspark.sql.functions Import udf 
def replace_question(x): 
return ("0" If x=="?" else x) 
replace_question= udf(replace_question) 


以 上 指令 说 明 如 下 : 


(1) 首先 从 pyspark.sql.functions 导入 udf 模块 。 

(2) 然后 用 def replace_question(x) 定义 python 函数 。 这 个 函数 很 简单 ， 传 入 x 参数 ， 
判断 如 果 是 问号 “?” 就 转 为 “0”。 

(3) 最 后 使 用 udf 方法 将 replace_question 转换 为 DataFrames UDF 用 户 自 定义 函数 。 


C02 导入 相关 模块 
我 们 需要 导入 下 列 模块 : 
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(1) 从 pyspark.sql.functions 导入 col 模块 ， 后 续 我 们 可 以 用 此 模块 读 取 字 段 数据 。 
(2) 另外 ， 还 需要 导入 pyspark.sql.types 模块 ， 作 为 后 续 转 换 数据 类 型 使 用 。 


In [1]: from pyspark.sql.functions import col 
Import pyspark.sql.types 


D03 使 用 replace question UDF 用 户 自 定 义 函 数 


以 下 指令 把 row_df DataFrames 第 4 个 字段 至 最 后 一 个 字段 转换 为 double。 其 中 , 最 后 一 
个 字段 是 label， 其 余 是 feature。 


In [18]: df= row_df.select( 
[url','alchemy_category’ ]+ 
[replace_question(col(column)).cast("double").alias(column) 
for column in row_df.columns[4:] ] ) 


以 上 指令 说 明 如 下 : 

(1) 用 row_df.select 选取 字段 。 

(2) 选取 字段 [url','alchemy_category' ]， 不 需要 转换 。 

(3) for column in row_dfcolumns[4:] 读 取 第 4 个 字段 至 最 后 一 个 字段 。 

(4) col(column) 读 取 字 段 数 据 并 且 调 用 replace_question 自 定义 函数 删除 问号 “?”。 
(5) .cast("double") 转换 为 double。 

(6) ,alias(column) 把 别名 设置 为 原来 的 字段 名 。 


人 04 查看 使 用 replace_question UDF 转换 后 的 字段 


转换 后 ， 前 两 个 字段 是 url 和 alchemy_category， 其 余 字 段 都 已 经 转换 为 double。( 因 为 
字段 太 多 ， 这 里 只 显示 部 分 界面 ， 如 图 20-4 所 示 。) 


In [45]: print df.printSchema() 


root 
1-- url: string (uleble. = true) 


1 g 

1--|alchemy_: 0 double (nullable = true) 
1--| avglinksize: double (nullable = true) 

1--| commonlinkratio_1: double (nullable = true) 

1--| commonlinkratio_2: double (nullable = true) 
I 
| 
| 


--| commonlinkratio_3: double (nullable = true) 已 经 转换 为 double 
-~-| commonlinkratio 4: double (nullable = true) 


~-| compression_ratio: double (nullable = true) 


-~-| embed_ratio: double (nullable = true) 


20-4 查看 使 用 replace_question UDF 转换 后 的 字段 
CI05 去 看 引 采 
以 下 使 用 dfselect 查看 结果 , 我 们 会 发 现 之 前 字段 问号 都 已 经 转换 为 0, 如 图 20-5 所 示 。 
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In [51]: df.select('url,alchemy_category,alchemy_category_score'v'is_news',label).show(10) 


+-------------------- +------------------ +---------------------- 4------- 4----- + 
1 url| alchemy_categorylalchemy_category_score|is_news|label| 
+-------------------- +------------------ +----------------------+-------+----- 
1http://www.bloomb... business| 9.789131| 
|http://www.popsci... recreation| 9.574147| 


1 

1 

Ihttp://www.menshe...| health| 08.996526| 
[http://www. dumbli...| health| 9.891248| 
Ihttp://bleacherre...| sports| 8.719157| 
|http://www.conven...| ?| 9.61 
Ilhttp://gofashionl...|arts_entertainment| 8.22111| 
Ihttp://www.inside...| ?1 9.6| 
|http://www.valetm. .| ?| 9.9| 
Ihttp://www.howswe...| ?| 9.9| 


only showing top 16 rows 


问号 都 已 经 转换 为 0 


20-5 查看 结果 


20.1.3 ”将 数据 分 成 train_df 与 test_df 


使 用 randomSplit 将 数据 按照 7 : 3 的 比例 分 成 train_df (训练 数据 ) 与 test_df〔 测 试 数 
据 )， 并 且 .cache() 暂 存在 内 存 中 ， 以 加 快 后 续 程 序 运行 的 速度 。 


In [11]: train_df, test_df = df.randomSplit([0.7, 0.3]) 
train_df.cache() 
test_df.cache() 


Out[l11]: DataFrane[url: string, alchemy_category: string, alchemy_category_score 
: double, avglinksize: double, commonlinkratio_1: double, commonlinkrat 
io_2; double, commonlinkratio._ 3: double, commonlinkratio_ 4; double, com 
pression_ratio: double, enbed_ratio: double, framebased: double, frameT 
agRatio: double, hasDomainLink: double, html_ratio: double, image_ratio 
: double, is news: double, lengthyLinkDomain: double, linkwordscore: do 
uble, news_front_page: double, non_markup_alphanum characters: double, 
numberofLinks: double, numwords_in_url: double, parametrizedLinkRatio: 
double, spelling errors_ratio: double, label: double] 


和 四 机 器 学 习 pipetine 流程 的 组 件 


在 建立 pipeline 数据 处 理 流程 之 前 ， 我 们 先 介 绍 将 用 来 建立 流程 的 组 件 。 


(1) StringIndexer: 将 文字 的 分 类 特征 字段 转换 为 数字 。 

(2) OneHotEncoder: 将 一 个 数值 的 分 类 特征 字段 转换 为 多 个 字段 的 Vector。 
(3) VectorAssembler: 将 多 个 特征 字段 整合 成 一 个 Vector 的 特征 字段 。 

(4) DecisionTreeClassifier: 决策 树 分 类 。 


20.2.1 Stringlndexer 


StringIndexer 的 功能 类 似 于 categoriesMap， 是 网 页 分 类 特征 字段 的 字典 , 可 用 于 将 字符 串 
分 类 特征 字段 转换 为 数值 。StringIndexer 是 一 个 “Estimator”, 所 以 使 用 上 必须 分 为 两 个 步骤 : 
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(1) 使 用 fit 方法 传 入 参数 DataFrame， 产 生 一 个 “Transformer”。 
(2) 针 对 生成 的 “Transformer”, 使 用 transform 方法 将 DataFrame 转换 为 另 一 个 DataFrame 


D01 导入 StringIndexer 模块 


首先 导入 pyspark.ml.feature. StringIndexer 模块 。 


In [97]: from pyspark.ml.feature Import StringIndexer 


D02 创建 StringIndexer 
以 下 程序 创建 “StringIndexer”， 传 入 下 列 参 数 : 


@ inputCol: 要 转换 的 字段 名 。 
@ ”outputCol: 转换 后 产生 的 字段 名 。 


运行 后 创建 “StringIndexer” 的 categoryIndexer。 


In [91]: from pyspark.ml.feature import StringIndexer 
categoryIndexer = StringIndexer( 
inputCol='alchemy_category', 
outputCol="alchemy_category_Index") 


03 stringIndexer 使 用 .fit 方法 生成 “Transformer” 


之 前 步骤 StringIndexer 创建 categoryIndexer 是 一 个 “Estimator”, 所 以 使 用 categoryIndexer. 
fit 方法 传 入 参数 train_df 生成 的 一 个 “Transformer”categoryTransformer。 


In [15]: categoryTransformer=categoryIndexer.fit(df) 


人 4 查看 categoryTransformer 的 内 容 


之 前 步骤 生成 的 “Transformer”categoryTransformer 的 labels 属性 其 实 就 是 一 个 网 页 分 
类 的 字典 (或 对 照 表 )， 我 们 可 以 使 用 下 列 程序 代码 来 查看 categoryTransformerlabels 的 内 容 : 


In [90]: forilin range(0,len(st_Transformer.labels)): 
print str(i)+":'+st_Transformer.labels[i] 


9:? 

1:recreation 
2:arts_entertainment 
3:business 

4:health 

5:sports 
6:culture_politics 
7:computer_internet 
8:science_technology 
9:gaming 

19:religion 
11:1law_crime 
12:unknown 
13:weather 
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使 用 categoryTransformer 将 所 有 train_df 转换 成 dfl 


接 下 来 ， 我 们 可 以 用 categoryTransformer 将 train_df 转换 成 df1。 


In [94]: df1i=categoryTransformer.transform(train_df) 


G06 查看 转换 后 的 dfl 字段 


使 用 dfl.columns 查看 全 部 字段 名 ， 就 可 以 发 现 新 增 了 'alchemy_category_Index' 字段 ， 
如 图 20-6 所 示 。 


In [95]: print df1.columns 


['url'，'alchemy_category'，'alchemy_category_score'，'avglinksize'，'commo 
nlinkratio_1', ‘commonlinkratio_2', "commonlinkratio_3'， "commonlinkratio_4 
， "compression_ratio'，'embed_ratio'，'framebased'，'frameTagRatio'，'hasD 
omainLink'， "html_ratio', 'image_ratio', 'is_news', 'lengthyLinkDomain', '1 
inkwordscore', ‘news_front_page'’, ‘non_markup_alphanum_characters'’, ‘number 


OfLinks', ‘numwords_in url', "parametrizedLinkRatio', 'spelling errors. | 
0', 'label', ['alcheny category_Index 转换 后 新 增 的 字段 


图 20-6 查看 转换 后 的 df1 字段 


GI07 查看 转换 后 的 结果 
使 用 指令 查看 dfl 的 网 页 分 类 字段 转换 前 后 的 差异 ， 如 图 20-7 所 示 。 


In [90]: df1.select("alchemy_category","alchemy_category_Index").show(10) 
+------------------ 4---------------------- + 
1 yy_category|alchemy_category_Index| 
+-- 
| 
1 recreation| 1.6| 
1 health| 4.61 
1 health| 4.61 
1 sports| 5.6| 
1 ?| 9.6| 
larts_entertainment| 2.8| 
1 ?| 9.61 
1 ?1 6.61 
1 ?| 8.9| 
+------------------ +---------------------- + 
only showing top 19 rows 


20-7 查看 转换 后 的 结果 


我 们 可 以 看 到 转换 前 "alchemy_category" 是 String 字符 串 ， 转 换 后 的 字段 "alchemy 
category_Index" 是 数值 。 例 如 ， 第 一 项 alchemy_category 的 值 "business" 转换 为 3.0。 


20.2.2 OneHotEncoder 
OneHotEncoder 可 以 将 一 个 数值 的 分 类 特征 字段 转换 为 多 个 字段 的 Vector。 
人 1) 导入 OneHotEncoder 模块 


首先 从 pyspark.ml.feature 导入 OneHotEncoder 模块 。 
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In [114]: from pyspark.ml.feature Import OneHotEncoder 


(302 创建 OneHotEncoder 


以 下 程序 创建 “OneHotEncoder”， 传 入 下 列 参数 : 


@ dropLast 设置 为 False。 
@ inputCol 是 要 转换 的 字段 名 。 
@ ”outputCol 是 转换 后 产生 的 字段 名 。 


创建 后 的 “OneHotEncoder” 是 encoder 变量 。 


In [139]: 


encoder = OneHotEncoder(dropLast=False, 
InputCol='alchemy category Index', 
outputCol="alchemy_category_IndexVec") 


ER3 OneHotEncoder 使 用 transform 转换 


3 


OneHotEncoder 使 用 transform 转换 后 结果 是 d 亿 ,我 们 可 以 使 用 下 列 指令 查看 字段 ， 如 


图 20-8 所 示 。 


In [22]: df2=encoder.transform(df1) 
print df2.columns 


['url’, "alchemy_category’, 
linksiz commonlinkratio_1", 
onlinkrati0_3", 
"embed_ratio’, ‘framebased’, 
nk', "html_ratio', "image_ratio', 
omain’, 
phanum_characters'， 
arametrizedLinkRatio', * 
alchemy_category_Index'， 


‘alche 


‘alchemy_category_score', ‘avg 
‘commonlinkratio_2°, 
‘commonlinkratio_4", 
"frameTagRatio'， 
‘is_news', 
"linkwordscore', ‘news_front_page’, 
"numberofLinks'， 


category_IndexVec" 


"comm 
"compression_ratio'， 

"hasDomainLi 
lengthyLinkD 
"non_markup_al 
‘numwords_in_url’, 'p 


:label', ' 


新 增 了 'alchemy_category_ 
IndexVec' 字段 


图 20-8 ”OneHotEncoder 使 用 transform 转换 


从 以 上 运行 结果 可 以 看 到 新 增 了 一 个 


'alchemy_category_IndexVec' 字段 。 


人 04 查看 转换 后 新 增 的 字段 ( 见 图 20-9 ) 


1 

1 

1 rEEreationl 
1 health| 
1 health| 
1 sports| 
1 ?1 
larts_entertainment| 
1 

1 

1 


only showing top 19 rows 


Business 先 转 为 3, 再 转 为 


(14, [1], [1-9])1 


(14, [4], [1.9])1 
4.8] (14, [4], [1.9])1 
5.61 (14, [5],[1.9])1 
9.61 (14, [6],[1.6])1 
2.61 (14, [2],[1.6])1 
9.61 (14, [6],[1.6])1 
9.6@1 (14, [0], [1.9])1 
9.0| (14, [9], [4.9])1 


图 20-9 查看 转换 后 新 增 的 字段 
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可 以 使 用 下 列 指令 查看 3 个 字段 : 


@ 。 alchemy category: 原本 字符 串 的 网 页 分 类 。 
@ alchemy_category_Index: 转换 为 一 个 字段 的 数值 。 
@ alchemy_category_IndexVec: 转换 为 14 个 字段 的 数值 。 


转换 后 新 增 字 段 alchemy_category_Index， 例 如 第 1 项 原本 是 business， 先 转 为 3， 再 转 
为 vector(14,[3], [1.0])。alchemy_category_IndexVec 的 表示 方式 其 实 是 SparesVector 格式 ， 其 
意义 说 明 如 下 : 


{24llr3], [1.6) 


第 3 不 字段 是 1， 其 余 是 0 


也 就 是 说 , 第 3 个 字段 (从 0 开始 算 起 第 3 个 ) 是 1, 其 余 是 0, 即 0,0,0,1,0,0,0,0,0,0,0,0,0,0。 
使 用 SparesVector 存储 数据 的 好 处 是 : 因为 大 部 分 都 是 0， 所 以 只 需要 指定 哪些 字段 不 是 0， 
既 可 让 数据 更 易 读 ， 也 节省 存储 空间 。 


20.2.3 VectorAssembler 
VectorAssembler 可 以 将 多 个 特征 字段 整合 成 一 个 特征 的 Vector。 
EX) 导入 VectorAssembler 模块 


首先 导入 pyspark.ml.feature.VectorAssembler 模块 。 


In [24]: from pyspark.ml.feature Import VectorAssembler 


C02 创建 全 部 特征 字段 List 


我 们 使 用 下 列 程序 代码 来 创建 全 部 特征 字段 名 的 assemblerInputs: 就 是 之 前 步骤 生成 的 分 
类 特征 字段 alchemy_category_Index (14 个 字段 的 数值 )， 加 上 原本 第 4 字段 到 倒数 第 2 个 
字段 的 数值 特征 字段 。 我 们 可 以 用 print 查看 assemblerInputs， 即 所 有 的 特征 字段 List。 


In [25]: assemblerIinputs =[alchemy_category IndexVec] + row_df.columns[4:-1] 
print assemblerInputs 


['alchemy_category_IndexVec', ‘alchemy_category_score’, ‘avglin 
ksize, ‘commonlinkratio_1', ‘commonlinkratio_2', ‘commonlinkra 
ti0_3', ‘commonlinkratio_4', ‘compression_ratio', ‘embed_ratio' 
， "framebased', 'frameTagRatio', ‘hasDomainLink’, ‘html_ratio’, 
"image_ratio', ‘is_news', ‘lengthyLinkDomain', 'linkwordscore' 
， "news_front_page', ‘non_markup_alphanum_characters', ‘numberO 
fLinks', ‘numwords_in_url', ‘parametrizedLinkRatio', ‘spelling_ 
errors_ratio'] 


创建 VectorAssembler 


以 下 程序 创建 “VectorAssembler”， 传 入 下 列 参数 : 
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@ inputCols 是 要 整合 的 所 有 字段 名 assemblerInputs。 
@ outputCol 是 转换 后 产生 的 字段 名 features。 


运行 后 创建 “VectorAssembler” 的 assembler。 


In [26]: assembler = VectorAssemblerf 
inputCols=assemblerInputs, 
outputCol="features") 


D04 运行 VectorAssembler 转换 


有 了 VectorAssembler， 就 可 以 运行 transform 转换 产生 df3。 


In [29]: df3=assembler.transform(df2) 


C05 查看 整合 后 新 增 的 字段 


3 


使 用 df3.columns 查看 全 部 字段 名 ,我 们 可 以 发 现 新 增 了 features 字段 ,如 图 20-10 所 示 。 


In [28]: print df3.columns 


['url', ‘alchemy_category', ‘alchemy_category_score', ‘avglinks 
ize', ‘commonlinkratio_1', ‘commonlinkratio_2', ‘commonlinkrati 
0_3', ‘commonlinkratio._4', ‘compression_ratio', ‘embed_ratio', 
‘framebased', 'frameTagRatio', ‘hasDomainLink’, ‘html_ratio', ' 
image_ratio', ‘is_news', ‘lengthyLinkDomain', ‘linkwordscore', 
‘news_front_page', ‘non_markup_alphanum_characters', ‘numberOfL 
inks', ‘numwords_in_url', ‘parametrizedLinkRatio', 'spelling_er 
rors_ratio'’, * *, ‘alchemy_category_Index', ‘alchemy_catego 
ry_Indexvec'，|| 


整合 后 新 增 的 字段 


图 20-10 查看 整合 后 新 增 的 字段 
306 查看 features 特征 字段 


可 以 用 下 列 指令 查看 features 字段 ， 这 也 是 SparesVector 格式 ， 只 是 内 容 太 多 了 ， 所 以 


下 面 的 截图 无 法 看 到 全 部 内 容 。 


In [29]: df3.select('features").show(5) 


1(36, [3,14,15,16,1... 
1(36, [1,14,15, 16,1... 
1(36, [4,14,15, 16,1... 


C307 查看 features 特征 字段 ( 见 图 20-11) 
为 了 能 够 看 到 features 特征 字段 ， 我 们 使 用 take(]) 来 查看 〈 见 图 20-11)。 
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In [30]: df.select('features).take(T) 


Out[30]: [Row(features=SparseVector(3g, {3: 1.9，14: 9.7891, 15: 2 
.9556，16: 0.6765, 17: 9.2959，18: 9.9471, 19: 9.9235，29 
: 8.4438, 23: 9.9998，25: 8.2458, 26: 9.9939，27: 1.9，28 
: 1.0, 29: 24.9, 31: 5424.9, 32: 179.9，33: 8.9，34: 9.15 
29, 35: 9.6791}))] 


图 20-11 查看 features 特征 字段 


从 图 20-11 中 ， 我 们 可 以 看 到 这 是 SparesVector 数据 格式 ， 共 36 个 字段 ， 第 3 个 字段 
是 1， 第 14 个 字段 是 0.7891， 第 15 个 字段 是 2.0556……， 其 余 字 段 都 是 0。 


20.2.4 ”使 用 DecisionTreeClassifier 二 元 分 类 


在 之 前 的 步骤 中 ， 我 们 已 经 准备 好 了 数据 : features 与 label 字段 。 接 下 来 就 可 以 使 用 
DecisionTreeClassifier 执行 二 元 分 类 了 。DecisionTreeClassifier 是 一 个 “Estimator”， 所 以 使 
用 上 必须 分 为 以 下 两 个 步骤 : 


(1) 使 用 fit 方法 ， 进 行 训练 产生 DecisionTree 模型 。 
(2) DecisionTree 模型 使 用 .transform () 进行 转换 ， 转 换 后 会 产生 预测 结果 。 


人 EXOi 导入 模块 


首先 导入 pyspark.ml.classification .DecisionTreeClassifier 模块 。 


In []: from pyspark.ml.classification Import DecisionTreeClassifier 


ER2 DecisionTreeClassifier 
运行 DecisionTreeClassifier， 传 入 下 列 参数 ， 运 行 后 存储 在 dt 变量 中 : 


@ labelCol='"label"， 标 签字 段 。 
featuresCol="features"， 特 征 字段 。 
impurity="gini", maxDepth=10, maxBins=14 决策 树 的 参数 , 可 以 参考 第 13 章 说 明 。 


In [133]: dt = DecisionTreeClassifier(labelCol="label"，featuresCol= features 
impurity="gini",maxDepth=10, maxBins=14) 


B03 执行 训练 


之 前 创建 的 dt 决策 树 分 类 , 我 们 可 以 使 用 .fit0 方法 进行 训练 ,训练 结果 产生 dt_model 
模型 ， 之 后 可 以 用 print 查看 产生 的 模型 。 


In [37]: dt_model=dt.fit(df3) 
print dt_model 


DecisionTreeClassificationModel (uid=DecisionTreeClassifier 4959b1 
cc4d83f9347245) of depth 19 with 723 nodes 
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C09 进行 预测 
建立 模型 后 就 可 以 使 用 .transform () 进行 转换 了 ， 转 换 后 会 产生 预测 结果 df4。 


In [71]: df4=dt_model.transform(df3) 


关于 决策 树 模型 ， 后 面 章节 还 会 详细 介绍 。 


建立 机 器 学 习 pipeline 流程 


之 前 已 经 介绍 了 机 器 学 习 pipeline 流程 的 组 件 ， 介 绍 的 过 程 步骤 很 多 ， 只 是 为 了 方便 解说 而 
已 ， 其 实 建立 机 器 学 习 流程 很 简单 。 接 下 来 我 们 会 发 现 只 需要 数 行程 序 语句 就 可 以 建立 完成 。 


人 EXOi 导入 模块 
导入 全 部 需要 的 模块 。 


In [52]: from pyspark.mlimport Pipeline 
from pyspark.ml.feature Import StringIndexer, OneHotEncoder,VectorAssembler 
from pyspark.ml.classification Import DecisionTreeClassifier 


本 D02 建立 pipeline 


建立 pipeline 的 程序 代码 如 下 ， 机 器 学 习 流程 组 件 StringIndexer、OneHotEncoder、 
VectorAssembler、DesionTreeClassifier 之 前 都 已 经 介绍 了 ， 只 有 最 后 一 行程 序 代 码 使 用 
Pipeline() 传 入 stages 阶段 参数 ， 将 所 有 的 组 件 变量 名 称 按照 顺序 输入 [stringIndexer encoder, 
assembler dt]。 最 后 运行 结果 就 建立 了 pipeline， 如 图 20-12 所 示 。 


In [94]: stringindexer = Stringindexer(inputCol="alchemy_category’, 
‘outputCol="alchemy_category_Index") 
encoder = OneHotEncoder(dropLast=False, 
InputCol='alchemy_category_Index', 
outputCol="alchemy_category_IndexVec”) 
assemblerInputs =[alchemy_category_IndexVec] + row_df.columns[4:-1] 
assembler = VectorAssembler(inputCols=assemblerInputs, outputCol="features") 
dt = DeclslonTreeClasslfler(labelCol="label", featuresCol="features",Impurity="ginl", 


axBins 
plpeline = Pipeline(stages=[stringindexer,encoder ,assembler,dt 


20-12 建立 pipeline 


建立 pipeline 不 需要 花 太 多 时 间 ， 但 是 后 续 pipeline.fit 进行 训练 会 花 很 多 时 间 。 
本 D03 坦 看 pipeline 阶段 
建立 pipeline 后 ， 我 们 可 以 使 用 getStages( 看 到 每 一 个 阶段 。 
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In [54]: pipeline.getStages() 


Out[54]: [StringIndexer_4133a498961f8998cd81, 
OneHotEncoder_4b889b9919a9742aa6be, 
VectorAssembler_428989baaa9617effb7aa, 
DecisionTreeClassifier_489f9ad8be9266ffad5f] 


本 轩 使 用 pipeline 进行 数据 处 理 与 训练 


之 前 我 们 已 经 建立 了 机 器 学 习 流程 pipeline。 下 面 可 以 使 用 pipeline 进行 数据 处 理 与 
训练 。 
01 使 用 pipelinefit 进行 训练 


以 下 程序 代码 使 用 pipeline.fit 进行 数据 处 理 与 训练 ， 传 入 train_df 训练 数据 ， 训 练 数 据 
会 执行 pipeline 的 所 有 阶段 stringIndexer、encoder、assembler、dt， 所 以 会 比较 花 时 间 ， 最 后 
产生 的 结果 是 pipelineModel。 


In [20]: pipelineModel = pipeline.fit(train_df) 


人 02 查看 训练 完成 后 的 决策 树 模 型 
pipelineModel 的 第 3 阶段 会 产生 决策 树 的 模型 ， 我 们 可 以 用 下 列 指令 来 查看 这 个 模型 。 


In [97]: plpelineModel.stages[3] 


Out[97]: DecisionTreeClassificationModel (uid=DecisionTreeClassifier_47ce8c 
c4972d5f67dd91) of depth 19 with 637 nodes 


人 3 查看 训练 完成 后 的 决策 树 模型 规则 
我 们 还 可 以 进一步 使 用 toDebugString 查看 决策 树 模型 的 规则 。 


In [98]: print pipelineModel.stages[3].toDebugString 


DecisionTreeClassificationModel (uid=DecisionTreeClassifier_47ce8c 
c4972d5f67dd81) of depth 19 with 637 nodes 
If (feature 31 <= 1799.9) 
If (feature 4 in {1.9]) 
If (feature 23 <= 9.96895293) 
If (feature 25 <= 9.238397921) 
If (feature 31 <= 1337.9) 
If (feature 25 <= 9.168592544) 
predict: 9.9 
Else (feature 25 > 9.168592544) 
predict: 1.9 
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号 辐 使 用 pipelineModel 进行 预测 


之 前 我 们 已 经 训练 完成 并 建立 模型 ， 现 在 我 们 可 以 进行 预测 。 
Dlo1 使 用 pipelineModel.transform 进行 预测 
以 下 程序 代码 pipelineModel 使 用 transform 方法 传 入 test_df 测试 数据 ， 进 行 预 测 。 


In [68]: predicted=pipelineModel.transform(test_df) 


C02 坦 看 预测 结果 字段 
查看 预测 后 的 Schema， 发 现 新 增 了 3 个 字段 ， 如 图 20-13 所 示 。 


In [90): print predicted.columns 


['url'，'alchemy_category'，'alchemy_category_score'，'avglinkslze 
', "commonlinkratio_1', 'commonlinkrat1io_2', ‘commonlinkratio_3', 
‘commonlinkratio_4", ‘compression_ratio'’, ‘embed_ratio', ‘framebas 
ed', 'frameTagRatio', ‘hasDomainLink’, ‘html_ratio', ‘image_ratio’ 
, ‘is_news', 'lengthyLinkDomain’, ‘linkwordscore', ‘news_front_pag 
e@', ‘non_markup_alphanum_characters', ‘numberOfLinks', ‘numwords_i 
nl Mr "parametrizedLinkRatio', ‘spelling errors_ratio', ‘label’, 
categoryIndexVec', ‘features' 
"prediction'] 


ET ion' 


预测 后 新 增 的 字段 


"probability'， 


20-13 ”查看 预测 结果 字段 


DI03 查看 预测 结果 
以 下 程序 代码 查看 预测 结果 DataFrame， 如 图 20-14 所 示 。 


In [104]: predicted.select('url','features’,'rawprediction','probabllity','label','prediction').shom(10) 


[49.9,2.9]| [0.96978431372549. . 
[29.9,2.9]1[9.99999999999996， 
oO rp 


Ihttp://6jokes.com.. .|(36, [2,14,15,16,1.. 
1(36, [1,14, 15, 16,1. 
-ho 


only showing top 19 rows 


.1(36, [1,14,15,16,1. Te 143.0] It0. 12269938659366 
Ihttp://17andbakin, , .1(36, [2,14, 15,16,1.,.1[118.9,378.9]1[9.23799322589645...| 1.9| 1.9| 
Ihttp://1x.com/pho. . .1(36, [9,15, 16,17,2...| [95.9,192.9]1[9.48223359253897...| 1.9| 1.9| 
Ihttp://2910.newsw. . .|(36, [2,14,15,16,1...| [9.9,1.9]| [9.9,9.1]| 9.9| 9.9| 
Ihttp://20ddities....|(36, [8,14,15,16,1...| [27.9,9.9]| [1.9,9.9]| 1.9| 9.9| 
Ihttp://3kidsandus. . .1(36, [9,15,16,17,1...| [18.9,62.9]1 [9.225,9.775]| 9.9| 1.6| 
Ihttp://3kidsandus. . .|(36, [9,15, 16,17,1...| [37.9,63.9]| [9.37,9.63]| 1.9| 1.0| 
Ihttp://6isx.com/1...1(36, [8,14,15,16,2...| [15.9,8.9]|[9.65217391394347...| 6.9| 9.6| 

“| 
1 
+ 


20-14 查看 预测 结果 
新 增 的 字段 是 : 
@ “rawprediction: 后 续 我 们 评估 模型 准确 率 时 使 用 .。 
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@ prediction: 预测 的 结果 0 或 1。 
@ probability: 除了 知道 预测 结果 ， 还 能 够 知道 0 或 1 的 概率 。 
J04 查看 预测 结果 与 概率 


上 一 步 中 probability 字段 太 长 ， 无 法 完全 显示 ， 可 以 使 用 take(10) 查看 。 


In [105]: predicted.selectfprobability,prediction') .take(10) 


Out[105]: [Row(probability=DenseVector ([9.1227, 9.8773]), prediction=4. 四 , 
Row(probability=DenseVector( [0.2379, ©.7621]), prediction=1.9), 
Row(probability=DenseVector( [9.4822, 9.5178]), prediction=1.9), 
Row(probability=DenseVector ([[9.9, 9.1]), prediction=9.9),| 
Row(probability=DenseVector( [1.6, 6.6]), prediction=0.0), 
Row(probability=DenseVector( [09.225, 9.775]), prediction=1.0), 
Row(probability=DenseVector( [9.37, 9.63]), prediction=1.0), 
Row(probability=DenseVector( [9.6522, 9.3478]), prediction=9.0), 
Row(probability=DenseVector( [9.9688, 9.9392]), prediction=9.9), 
Row(probability=DenseVector([6.9991，6.9999])，prediction=9.9)] 


我 们 可 以 从 上 面 的 运行 结果 看 出 probability 是 DenseVector 格式 : 
[预测 是 0 的 概率 ， 预 测 是 1 的 概率 ] 


@ 例如, 第 1 项 数据 ([0.1227, 0.8773]), prediction=1.0)，[ 预 测 是 0 的 概率 为 0.1227， 
预测 是 1 的 概率 为 0.8773]， 因 为 预测 是 1 的 概率 大 于 0.5， 所 以 最 后 预测 结果 是 
上 

@ 例如， 第 4 项 数据 ([0.9, 0.1]), prediction=0.0)，[ 预 测 是 0 的 概率 为 0.9， 预 测 是 1 
的 概率 为 0.1]， 因 为 预测 是 0 的 概率 大 于 0.5， 所 以 最 后 预测 结果 是 0。 


评估 模型 的 准确 率 


之 前 我 们 已 经 建立 模型 了 ， 我 们 希望 进一步 评估 模型 的 准确 率 。 
30) 导入 模块 


首先 从 pyspark.ml.evaluation 导入 BinaryClassificationEvaluator 模块 。 


In [107]: from pyspark.ml.evaluation Import BinaryClassificationEvaluator 


人 2 创建 BinaryClassificationEvaluator 
创建 BinaryClassificationEvaluator， 传 入 下 列 参数 : 


@ rawPredictionCol="rawPrediction" 之 前 预测 后 产生 的 字段 。 
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和 labelCol="label" 标签 字段 。 
@ metricName="areaUnderROC" 也 就 是 AUC。 


运行 后 创建 evaluator。 


In [108]: evaluator = BinaryClassificationEvaluator( 
rawPredictionCol="rawPrediction", 
labelCol="label", 
metricName="areaUnderROC" ) 


9303 计算 AUC 
可 以 执行 下 列 命令 查看 AUC 。 


In [243]: predictions =pipelineModel.transform(test_df) 
auc= evaluator.evaluate(predictions) 
auc 


Out[243]: 6.6169697441256339 


以 上 程序 代码 说 明 如 下 : 


(1) 使 用 pipelineModel.transform 传 入 test_df 测试 数据 进行 预测 预测 结果 是 predictions。 
(2) 使 用 evaluatorevaluate 传 入 predictions 参数 ， 计 算 AUC。 
(3) 运行 结果 准确 率 是 0.61。 


使 用 TrainValidation 进行 训练 验证 
找 出 最 佳 模型 
在 第 13.10 节 我 们 使 用 Spark MLlib 必须 自行 编写 evalAllParameter 函数 才能 进行 训练 


评估 ， 以 便 找 出 最 佳 参数 模型 。 然 而 ， 在 Spark.ML 中 我 们 可 以 使 用 TrainValidation 模块 进 
行 训练 验证 找 出 最 佳 模型 。 


E30) 导入 模块 


从 pyspark.ml.tuning 导入 ParamGridBuilder 与 TrainValidationSplit 模块 。 


In [56]: from pyspark.ml.tuning import ParamGridBuilder,TrainValidationSplit 


C002 设置 训练 验证 的 参数 


下 面 我 们 使 用 ParamGridBuilder 设置 impurity 两 个 参数 值 、maxDepth 三 个 参数 值 与 
maxBins 三 个 参数 值 ， 所 以 后 续 执行 训练 验证 时 会 执行 2*3*3=18 次 。 
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In [50]: paramGrid = ParamGridBullder()\ 
-addGrid(dt.Impurity, [ “ginl","entropy"])\ 
.addGrid(dt.maxDepth, [ 5,10,15])\ 
.addGrid(dt.maxBins, [10, 15,20])\ 
-bulld() 


创建 TrainValidationSplit 
创建 TrainValidationSplit， 传 入 下 列 参数 ， 执 行 后 创建 tvs 变量 : 


estimator=dt， 之 前 创建 的 DecisionTreeClassifier。 

evaluator=evaluator， 之 前 创建 的 BinaryClassificationEvaluator。 
estimatorParamMaps=paramGrid， 之 前 创建 的 ParamGridBuilder。 

trainRatio=0.8， 训 练 验证 前 会 先 将 数据 按照 8 : 2 的 比例 分 成 训练 数据 与 验证 数据 。 


In [58]: © tvs = TrainValidationSplit(estimator=dt,evaluator=evaluator, 
estimatorParamMaps=paramGrid,trainRatio=0.8) 


本 D04 建立 tvs_pipeline 


建立 tvs_pipeline 阶段 与 之 前 建立 的 训练 pipeline 大 致 相同 ， 只 有 最 后 一 个 阶段 tvs 是 
上 一 步骤 所 创建 的 TrainvalidationSplit， 如 图 20-15 所 示 。 


In [59]: tvs_pipeline = Pipeline(stages=[stringIndexer,encoder assembler[ss 


只 有 最 后 
图 20-15 建立 tvs_pipeline 
YT05. 使 用 tvs_pipeline 流程 进行 训练 验证 


以 下 程序 代码 使 用 tvs_pipeline.fit 进行 训练 与 验证 ， 传 入 train_df 训练 数据 ， 训 练 数据 
会 执行 tvs_pipeline 的 所 有 阶段 stringIndexer、encoder、assembler 和 tvs， 所 以 会 比较 费时 ， 
尤其 是 最 后 阶段 (执行 训练 验证 18 次 )， 最 后 产生 的 结果 是 tvs_pipelineModel。 


In [53]: tvs_pipelineModel =tvs_pipeline.fit(train_df) 


CT06 查看 训练 完成 的 最 住 模型 


tvs_pipelineModel 的 第 4 阶段 是 TrainValidation， 因 为 是 从 0 算 起 ， 所 以 stages[3] 的 
bestModel 属性 是 最 佳 模型 。 


In [279]: © bestModel=tvs_pipelineModel.stages[3].bestModel 
bestModel 


Out[279]: DecisionTreeClassificationModel (uid=DecisionTreeClassifier_4a14b 
d499a76167a6437) of depth 25 with 1993 nodes 
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人 7 查看 训练 验证 完成 的 最 住 模型 规则 
还 可 以 用 下 列 toDebugString 来 查看 最 佳 模 型 规则 ，[:500] 只 显示 前 500 文字 。 


In [47]: print bestModel.toDebugString[:500] 


DecisionTreeClassificationModel (uid=DecisionTreeClassifier 
831b54624ffd91e93d7) of depth 15 with 1591 nodes 
If (feature 30 <= 1929.9) 
If (feature 2 in {1.9}) 
If (feature 33 <= 9.284848485) 
If (feature 15 <= 0.373333333) 
If (feature 14 <= 3.495465465) 
If (feature 25 <= 6.918992165) 
If (feature 31 <= 36.9) 
Predict: 9.9 
Else (feature 31 > 36.9) 
If (feature 32 <= 7.6) 
Predict: 1.9 
Else (feature 32 > 7.9) 


评估 最 佳 模 型 AUC 
最 后 以 下 列 程序 评估 最 佳 模型 AUC 是 0.65。 


In [253]: predictions = tvs_pipelineModel.transform(test_df) 
auc= evaluator.evaluate(predictions) 
aut 


Out[253]: 9.6562313569532391 


使 用 crossValidation 交叉 验证 找 出 最 佳 模型 


我 们 还 可 以 更 进一步 用 crossValidation 交叉 验证 找 出 最 佳 模型 。k-Fold 交叉 验证 
(crossValidation) 可 以 得 到 可 靠 稳 定 的 模型， 减少 过 度 学 习 或 学 习 不 足 的 情况 ， 一 般 常 用 为 
10-Fold。k 值 越 大 ， 效 果 越 好 ， 只 是 所 需 时 间 也 越 多 。 为 了 方便 解说 和 避免 执行 时 间 过 久 ， 
我 们 只 以 k=3 来 说 明和 示范 。 读 者 可 以 自行 设置 k 值 ， 只 是 需要 考虑 程序 运行 的 机 器 性 能 ， 
以 免 等 候 时 间 过 久 。 


人 1) crossValidation 交叉 验证 说 明 


k-Fold 的 crossValidation 交叉 验证 假设 k 是 3 的 做 法 如 下 : 


验证 训练 训练 训练 


将 数据 分 为 3 个 部 分 A、B、C， 将 会 执行 3 次 训练 验证 : 
(1) B+C 作为 训练 数据 ，A 作为 验证 数据 。 
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(2) A+B 作为 训练 数据 ，C 作为 验证 数据 。 

(3) A+C 作为 训练 数据 ，B 作为 验证 数据 。 

因为 之 前 ParamGridBuilder 设置 impurity 两 个 参数 值 .maxDepth 三 个 参数 值 与 maxBins 
三 个 参数 值 ， 所 以 后 续 执行 训练 验证 时 会 执行 2*3*3 = 18 次 ， 所 以 总 共 会 执行 18*3 = 54 次 。 


37002 导入 模块 


先导 入 模块 ， 主 要 是 从 pyspark.ml.tuning 导入 ParamGridBuilder 与 CrossValidation 。 


In [165]: from pyspark.ml.tuning Import CrossValidator 


本 D03 建立 交叉 验证 的 CrossValidator 
以 下 程序 代码 建立 交叉 验证 的 CrossValidator 与 之 前 创建 TrainValidationSplit 参数 大 致 
相同 ， 只 有 最 后 一 个 参数 numFolds=3 不 同 。numFolds 的 说 明 请 参考 步骤 1。 


In [288]: cv = CrossValidator(estimator=dt, evaluator=evaluator, 
estimatorParamMaps=paramGrid, numFolds=3) 


人 4 建立 交叉 验证 的 cv_pipeline 


建立 cv_pipeline 阶段 与 之 前 建立 的 训练 tvs_pipeline 大 致 相同 ， 只 有 最 后 一 个 阶段 cv 
是 上 一 步骤 所 建立 的 CrossValidator。 


In [289]: cv_pipeline = Pipeline(stages=[stringIndexer,encoder ,assembler, cv]) 


人 5 使 用 cv_pipeline 流程 进行 交叉 验证 


以 下 程序 代码 使 用 cv_pipeline.fit 进行 训练 与 验证 , 传 入 train_df 训练 数据 。 训练 数据 会 
执行 cv_pipeline 的 所 有 阶段 ， 尤 其 是 最 后 阶段 会 执行 训练 验证 54 次 ， 所 以 会 比较 费时 ， 最 
后 产生 的 结果 是 cv_pipelineModel。 


In [290]: cv_pipelineModel = cv_pipeline.fit(train_df) 


C06 坦 看 交叉 验证 完成 的 最 佳 模型 


cv_pipelineModel 的 第 4 阶段 是 CrossValidator， 因 为 是 从 0 算 起 ， 所 以 stages[3] 是 
CrossValidator。CrossValidator 的 bestModel 属性 是 最 佳 模型 。 


In [285]: bestModel=cv_pipelineModel.stages[3].bestModel 

bestModel 
(Out[285]: pecisionTreeclassificationModel (uid=DecisionTreeClassifier 4a14b 
d409a76197a8437) of depth 25 with 1993 nodes 


307 评估 最 佳 模型 AUC 
最 后 以 下 列 程序 评估 最 佳 模型 AUC 是 0.65。 
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In [93]: predictions = cv_pipelineModel.transform(test_df) 
auc= evaluator.evaluate(predictions) 
auc 


Out[93]: 6.6577646128548335 


使 用 随机 森林 
RandomForestClassifier 分 类 器 


随机 森林 的 想法 就 是 集合 多 棵 决策 树 ， 每 棵 决策 树 都 是 分 类 器 ， 都 使 用 训练 数据 进行 训 
练 ， 如 果 有 N 棵 树 ， 就 会 产生 N 个 分 类 结果 。 每 一 棵 树 的 分 类 结果 可 视 为 投票 ， 随 机 森林 
整合 了 所 有 决策 树 的 投票 结果 ， 将 投票 次 数 最 多 的 类 别 作为 最 终 的 分 类 。 使 用 机 器 学 习 流程 的 
好 处 是 ， 要 更 换 组 件 很 容易 ， 我 们 只 需要 稍 加 修改 之 前 决策 树 DecisionTreeClassifier 的 程序 
代码 ， 就 可 以 改 成 随机 森林 RandomForestClassifier。 


人 0) 建立 RandomForestClassifier pipeline 
以 下 程序 代码 建立 RandomForestClassifier pipeline 机 器 学 习 流程 : 


(1) 首先 导入 RandomForestClassifier 模块 。 

(2) 创建 RandomForestClassifier 变量 rf， 传 入 参数 与 决策 树 类 似 ， 只 是 多 了 numTrees 
参数 (设置 决策 森林 中 有 多 少 决策 树 ， 这 里 设 为 10)。 

(3) 建立 rfpipeline， 与 之 前 决策 树 的 程序 代码 大 致 相同 ， 只 有 最 后 一 阶段 改 为 rf。 


In [96]: from pyspark.ml.classification Import RandomForestclassifier 


rf =RandomForestClassifier(labelCol="label", 
featuresCol="features",numTrees=10) 


rfpipeline = Pipeline(stages=[stringIndexer'encoder ,assembler,rf ]) 


本 D02 评估 RandomForestClassifier 的 准确 度 


rfpipeline.fit 传 入 train_df 进行 训练 , 再 用 rftvs_pipelineModel.transform 传 入 test_df 进 
行 评估 ， 我 们 可 以 看 到 AUC 约 为 0.73， 比 之 前 使 用 决策 树 的 准确 度 明显 增加 。 


In [69]: rfpipeline Model = rfpipeline.fit(train_df) 
rfpredicted=rfpipeline Model.transform(test_df) 
evaluator.evaluate(rfpredicted) 


Out[69]: 9.7378858518228467 


C3703 使 用 RandomForestClassifier TrainValidation 找 出 最 佳 模型 


以 下 RandomForestClassifier 训练 验证 与 DecisionTree 大 至 相同， 只 是 增加 
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了 .addGrid(rf.numTrees, [10, 20,30])。numTrees 用 不 同 数值 进行 评估 。 


In [70]: from pyspark.ml.tuning Import ParamGridBuilder TrainValidationSplit 
from pyspark.ml.evaluation Import BinaryClassificationEvaluator 
from pyspark.ml.classification Import RandomForestClassifier 


paramGrid = ParamGridBullder()\ 
-addGrid(rf.Impurity, [ "gini","entropy"])\ 
-addGrid(rf.maxDepth, [ 5,10,15])\ 
.addGrid(rf.maxBins, [10, 15,20])\ 
.addGrid(rf.numTrees, [10, 20,30])\ 
.bulld() 


rftvs = TrainValidationSplit(estimator=rf, evaluator=evaluator, 
estimatorParamMaps=paramGrld, tralnRatlo=0.8) 


rftvs_pipeline = Pipeline(stages=[stringIndexer,encoder ,assembler, rftvs]) 
rftvs_pipelineModel =rftvs_pipeline.fit(train_df) 

rftvspredictions = rftvs_pipeline Model.transform(test_df) 

auc= evaluator.evaluate(rftvspredictions) 

auc 


Out[70]: 9.7595738919879222 


运行 后 结果 AUC 约 为 0.759， 准 确 度 又 增加 了 一 些 。 
人 ER4 使 用 crossValidation 找 出 最 佳 模型 
最 后 进行 crossValidation 交叉 验证 ， 与 DecisionTree 类 似 ， 只 是 原来 的 dt 改 为 了 rf。 


In [122]: from pyspark.ml.tuning Import CrossValldator ParamGridBullder 
from pyspark.ml Import Pipeline 


rfcv = CrossValldator(estImator=rf, evaluator=evaluator, 
estimatorParamMaps=paramGrld, numFolds=3) 


rfcv_plpeline = Plpeline(stages=[stringIndexer,encoder ,assembler, rfcv]) 
rfcv_plpelineModel = rfcv_pipeline.fit(train_df) 


05 使 用 最 佳 模型 进行 预测 


使 用 rfevpredictions = rfcv_pipelineModel.transform(test_df) 传 入 test_df 进行 预测 。 


In [88]: rfcvpredictions = rfcv_pipeline Model.transform(test_df) 


C706 明示 使 用 最 佳 模型 预测 结果 


使 用 最 佳 模型 预测 后 的 结果 如 图 20-16 所 示 。 
以 上 程序 代码 说 明 如 下 : 


(1) 创建 DescDict 字典 ， 后 续 可 用 此 字典 转换 预测 结果 的 说 明 。 

(2) for data in rfevpredictions .select('url','prediction'").take(5) 用 于 读 取 前 5 项 网 址 与 预测 
结果 。 

(3) 最 后 用 print 显示 网 址 、 预 测 结 果 、 使 用 DescDict 字典 转换 后 的 预测 结果 说 明 。 
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In [87]: DescDIct ={ 
0: "暂时 性 网 页 (ephemeral)", 
1: "长 青 网 页 (evergreen)" 


} 
for data In rfcvpredictions .select('url','prediction").take(5): 
print" 网 址 : "+str(data[0])+"\n" +\ 
= 一 > 预测 :"+ str(data[1])+ \ 
"说 明 :"+DescDict[data[1]] +"\n" 
网 址 : http://1999awesomethings.com/2998/97/97/989-blowing-your-nose-in-the-shower/ 


==> 预 测 :1.9 说 明 :长 青 网 页 (evergreen) 


网 址 : http://24-7humor .com/what-the-hell-windows-95/ 
==> 预 测 :9.9 说 明 :暂时 性 网 页 (ephemeral) 


网 址 : http://2to5.1ist25.com/post/24398714566/worry-is-like-a-rocking-chair 
==> 预测 :9.9 说 明 :暂时 性 网 页 (ephemeral) 


网 址 : http://3kidsandus .com/2919/patriotic-checkerboard-cake-for-the-4th-of-july/ 
==> 预 测 :1.9 说 明 :长 青 网 页 (evergreen) 


网 址 : http://3kidsandus.com/red-velvet-rice-krispies-treats-hearts-for-valentines-day/ 


则 :1.9 说 明 :长 青 网 页 (evergreen) 
图 20-16 显示 使 用 最 佳 模型 预测 结果 


CT07 计算 最 佳 模型 AUC 
用 下 列 程序 评估 最 佳 模 型 AUC 是 0.76。 


In [89]: auc= evaluator.evaluate(rfcvpredictions) 
auc 


Out[89]: 9.7616241115893595 


运行 后 结果 AUC 约 为 0.76， 准 确 度 又 增加 了 一 些 。 


结论 


本 章 介绍 了 Spark 机 器 学 习 流程 (ML Pipeline) 二 元 分 类 ， 包 括 建立 pipeline 机 器 学 习 
流程 ， 完 成 数据 处 理 、 训 练 模型 、 评 估 模 型 ， 并 预测 网 页 是 暂时 性 还 是 长 青 的 ， 最 后 使 用 训练 
验证 与 交叉 验证 找 出 最 佳 模 型 ， 提 高 预测 准确 度 。 在 下 一 章 ， 我 们 将 介绍 Spark 机 器 学 习 流 
程 (ML Pipeline) 多 元 分 类 。 
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本 章 将 使 用 第 17 章 “ 和 森林 覆盖 树种 ”多 元 分 类 数据 集 来 示 
范 如 何 使 用 Spark ML Pipeline 机 器 学 习 流 程 多 元 分 类 。 使 用 决 
策 树 在 不 同 条 件 (Elevation (海拔)、Aspect〈 方 位 )、Slope( 斜 
率 )、 水 源 的 垂直 距离 、 匾 野 分 类 、 水 源 的 水 平 距离 、 土 壤 分 类 等 
等 ) 预测 Cover Type 森林 覆盖 分 类 ， 并 通过 训练 验证 找 出 最 佳 
模型 ， 提 高 预测 准确 度 。 
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> Spark Python 集成 开发 环境 的 安装 步骤 


“森林 覆盖 树种 ”数据 集 机 器 学 习 流程 比较 简单 ， 只 有 两 个 阶段 ( 见 图 21-1)。 
Spark ML pipeline 


pipeline fit() 


pipelineModel.transform() 


图 21-1 “森林 覆盖 树种 ”数据 集 机 器 学 习 流程 


(1) 建立 机 器 学 习 流 程 pipeline: 包含 两 个 阶段 (stages)， 第 一 阶段 是 数据 处 理 ， 第 二 
阶段 是 DesionTreeClassifier 机 器 学 习 多 元 分 类 算法 。 


@ 。 VectorAssembler: 将 所 有 的 特征 字段 整合 成 Vector。 
@ DesionTreeClassifier: 决策 树 多 元 分 类 。 


(2) 训练 :“ 训 练 数据 DataFrame” 使 用 pipeline .fit() 进行 训练 。 系 统 会 按照 顺序 执行 
每 一 个 阶段 ， 最 后 产生 pipelineModel 模型 。pipelineModel 与 pipeline 类 似 ， 只 是 多 了 训练 
后 建立 的 模型 Model。 

(3) 预测 : “新 数据 DataFrame” 使 用 pipelineModel.transform()。 系 统 会 按照 顺序 执行 
每 一 个 阶段 ， 最 后 使 用 DesionTreeClassifier Model 进行 预测 。 预 测 完成 后 会 产生 “预测 结果 


DataFrame” 。 


本 数据 准备 


我 们 将 使 用 IPython Notebook 来 示范 ， 因 为 使 用 IPython Notebook 具有 互动 性 的 好 处 ， 
可 以 看 到 指令 执行 后 的 结果 。 以 下 示范 在 本 地 执行 ， 读 者 也 可 以 参考 第 9.9 节 的 说 明 ， 在 不 
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同 的 模式 运行 IPython Notebook。 读 者 可 以 参考 本 书 附录 A 有 关 本 书 范例 程序 下 载 与 安装 的 
说 明 ， 下 载 本 章 IPython Notebook 范例 文件 进行 练习 。 


> 切换 ipynotebook 工作 目录 
cd ~/pythonwork/ipynotebook 


> 本 地 执行 pyspark 使 用 IPython Notebook 界面 
PYSPARK DRIVER PYTHON=ipython PYSPARK DRIVER PYTHON OPTS="notebook" pyspark 


按 Enter 键 后 就 会 启动 浏览 器 ， 默 认 的 网 址 是 http://localhost:8888， 进 去 后 就 可 以 看 到 
IPython NoteBook 的 界面 。 


21.1.1 读 取 文本 文件 


本 章 的 示范 将 先 以 sc.textFile 导入 数据 文件 ， 然 后 再 转换 成 DataFrame。 
CI01 配置 文件 的 读 取 路 径 
在 IPython Notebook 使 用 下 列 指令 配置 文件 的 读 取 路 径 : 


In [1]: global Path 
if sc.masterf0:5]=="local" : 
Path="file:/home/hduser/pythonwork/PythonProject/” 


else: 
Path="hdfs://master:9000/user/hduser/” 


以 上 程序 判断 : 
@ 如 果 sc.master[0:5] 是 "local"， 代表 当前 是 本 地 执行 ， 读 取 本 地 文件 。 


@ 如果 sc.master[0:5] 不 是 "local"， 也 就 是 在 cluster 执行 ， 就 有 可 能 是 YARN client 
或 Spark stand alone， 读 取 HDFS 文件 。 


C02 读 取 文本 文件 并 查看 数据 项 数 


以 下 程序 代码 先 以 sc.textFile 导入 数据 文件 ， 然 后 rawData 使 用 map 与 lambda 语句 
传 入 x 作为 参数 ， 调 用 x.split(",") 以 逗号 “,” 分 隔 字段 ， 提 取 每 一 字段 。 
In [3]: rawData = sc.textFile(Path+"data/covtype.data") 


lines = rawData.map(lambda x: x.split(",")) 
lines.count() 


Out[3]: 581912 


以 上 运行 结果 显示 共计 581012 项 数据 。 
G03 查看 字段 数 
以 len() 查看 数据 集 字 段 数 共 55 个 ， 并 存放 于 fieldnum 变量 。 
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In [9]: fleldnum = len(lines.first()) 
fleldnum 


Out[9]: 55 


21.1.2 创建 DataFrame 
D01 导入 StringType 模块 


首先 ， 从 pyspark.sqltypes 导入 StringType、StructField、StructType 模块 ， 后 续 可 用 于 
创建 字符 串 字段 。 


In [5]: from pyspark.sql.types Import StringType,StructFleld,StructType 


D02 创建 DataFrame 


以 下 程序 代码 使 用 for i in range(fieldnum) 语句 从 i=0 到 54 共 执 行 55 次 ， 用 
StructField 创建 字段 ， 产 生 的 字段 名 分 别 是 好、fl、 刀 … 全 4， 数 据 类 型 是 String， 运 行 的 结 
果 存 放 在 fields 变量 中 。 


In [208]: flelds = [StructFleld("f"*+str(I), StringType(), True) 
for | In range(fleldnum )] 


03 创建 schema 
用 StructType() 传 入 fields 作为 参数 创建 schema。 


In [207]: schema = StructType(fields) 


本 D04 创建 DataFrame 


使 用 spark.createDataFrame 创建 DataFrame 传 入 参数 : lines RDD 与 schema。 


In [8]: covtype_df = spark.createDataFrame(lines, schema) 


D05 坦 看 字段 
以 下 列 指令 查看 covtype_df 字段 ， 我 们 可 以 发 现 从 f 到 f54 共 55 个 字段 。 


In [106]: print covtype_dfcolumns 


'f34', ‘'f35', *f36', 'f37', 'f38', 'f39', 'f49', 'f41', 
“f42', 'f43', 'f44', 'f45', *f46', 'f47', ‘f48', 'f49', * 


Tf50', 'f51', 'f52', *f53', "754'] 


D06 查看 Schema 
使 用 printSchema() 来 查看 covtype_df 的 Schema， 我 们 可 以 看 到 所 有 字段 都 是 string 
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数据 格式 。 因 为 字段 太 多 ， 所 以 我 们 只 截取 了 部 分 界面 ， 如 图 21-2 所 示 。 


In [107]: print covtype_df.printSchemal() 


root 所 有 字段 都 是 string 数据 格式 


1-- fe: (nullable = true) 
1-- f1: string (nullable = true) 
1-- f2: string (nullable = true) 
1-- f3: string (nullable = true) 
1-- f4: string (nullable = true) 
1-- f5: string (nullable = true) 
1-- f6: string (nullable = true) 


21-2 查看 Schema 


21.1.3 ”转换 为 double 

必须 先 将 所 有 字段 转 为 double， 后 续 才 能 执行 训练 。 
To1 转换 为 double 

以 下 程序 代码 将 所 有 字段 转换 为 double: 


In [50]: from pyspark.sql.functions Import col 
covtype_df= covtype_df.select([ col(column).cast("double").allas(column) 
for column In covtype_df.columns]) 


以 上 指令 说 明 如 下 : 


(1) 从 pyspark.sql.functions 导入 col 模块 ,后续 我 们 可 以 用 此 模块 读 取 字段 数据 。 
(2) 以 covtype_df.select 选取 字段 。 

(3) for column in covtype_df.columns 执行 所 有 字段 。 

(4) col(column) 读 取 字 段 数据 ， 并 使 用 .cast("double") 转换 为 double。 

(5) .alias(column) 把 别名 设置 为 原来 的 字段 名 。 


人 2 查看 转换 后 的 Schema 


使 用 printSchema() 显示 Schema， 转 换 后 我 们 可 以 发 现 所 有 字段 都 已 经 转换 为 double。 
(字段 很 多 ， 下 面 截 图 只 显示 部 分 界面 。) 


In [111]: covtype_df.printschemal() 


root 

1-- fe: double (nullable = true) 
-- f1: double (nullable = true) 
-- f2: double (nullable = true) 
-- f3: double (nullable = true) 
-- f4: double (nullable = true) 
-- f5: double (nullable = true) 
-- f6: double (nullable = true) 
-- f7: double (nullable = true) 


G303 创建 特征 字段 List 
特征 字段 是 f0~f53， 所 以 使 用 .columns[:54] 创建 featuresCols 特征 字段 List。 
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In [108]: featuresCols=covtype_dfcolumns[:54] 
print featuresCols 


[Ye 2 
"735" 
"723"… 
f28', 'f29', 'f39', 'f31’, 'f32', 
36',"f37', 'f38’, 'f39', 'f49', * 
'f42', 'f43', 'f44', 'f45', 'f46', 'f47', 'f48', 
f50', 'f51', 'f52', 'f53"] 


304 设置 label 字段 
以 下 程序 代码 设置 label 字段: 


In[]: covtype_df=covtype_df.withColumn("label", covtype_df{"f54"] - 1).drop("f54") 
(1) covtype_df 的 第 54 个 字段 是 label， 其 值 范围 是 1~7 (1 一 Spruce/Fir、2 一 Lodgepole 
Pine、3 一 Ponderosa Pine、4 一 Cottonwood/Willow、5 一 Aspen、6 一 Douglas-fr 7—Krummholz)。 
(2) 因为 要 执行 DecisionTreeClassifier 训练 ， 所 以 规定 label 值 一 定 是 从 0 开始 的 数值 。 
(3) 我 们 使 用 .withColumn("label", covtype_df["f54"] - 1) 创 建 label 字段 并 且 减 1，label 
值 范围 为 0~6。 


705 查看 第 一 项 数据 


下 列 程序 代码 使 用 covtype_df.show(1) 查看 第 一 项 数据 : 


In [89]: covtype _dfshowt1) 


ml 2 ral ral rs| el | ral relr3elrillrlzlr131rlalr151r181r171r181r191r2817211r221r231r24|r251r261r271r281 
11f321f331f341f351f361f3717381f391f481f411f4217431f441f451f461f471f481f4917561f511f521f5311abel1 


.619.619.919.619.619.919.91 


only snowing top 1 row 


以 上 运行 结果 除了 最 后 字段 是 label 标签 字段 ， 其 余 都 是 features 特征 字段 。 
C306 将 数据 分 成 train_df 与 test_df 


使 用 randomSplit 将 数据 按照 7 :3 的 比例 分 成 train_df〔( 训 练 数据 与 test_df (测试 数 
据 )， 并 且 .cache() 暂 存在 内 存 中 ， 以 加 快 后 续 的 程序 运行 速度 。 


In [112]: traln_df test_df = covtype_df.randomsplit([0.7, 0.3]) 
train_df.cache() 
test_df.cache() 


Out[112]: DataFrame[f9: double, f1: double, f2: double, f3: double, f4: double, f5: doub 
le, f6: double, f7: double, f8: double, f9: double, f19: double, f11: double, 
f12: double, f13: double, f14: double, f15: double, f16: double, f17: double, 
f18: double, f19: double, f29: double, f21: double, f22: double, f23: double, 
f24: double, f25: double, f26: double, f27: double, f28: double, f29: double, 
f39: double, f31: double, f32: double, f33: double, f34: double, f35: double, 
f36: double, f37: double, f38: double, f39: double, f40: double, f41: double, 
f42: double, f43: double, f44: double, f45: double, f46: double, f47: double, 
f48: double, f49: double，f59: double, f51: double, f52: double, f53: double, 
label: double] 
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建立 机 器 学 习 pipeline 流程 


接 下 来 ， 建 立 “森林 覆 六 树种 ”数据 集 机 器 学 习 流 程 。 
C01 导入 模块 
这 里 我 们 整理 全 部 需要 导入 的 模块 。 


In [43]: from pyspark.ml Import Plpeline 
from pyspark.ml.feature Import VectorAssembler 
from pyspark.ml.classification Import DecisionTreeClassifler 


人 ER 建立 pipeline 
以 下 程序 代码 建立 pipeline: 


In [114]: vectorAssembler = VectorAssembler(inputCols=featuresCols, 
outputCol="features") 
dt = DecislonTreeClassiIfler(labelCol="label",featuresCol= 'features' 
,maxDepth =5,maxBIns=20) 
dt_pipeline = Pipeline(stages=[vectorAssembler ,dt]) 


以 上 程序 代码 说 明 如 下 : 
(1) 创建 VectorAssembler， 将 所 有 字段 整合 成 一 个 Vector 特征 字段 传 入 参数 : 


@ inputCols=featuresCols， 之 前 创建 的 featuresCols 特征 字段 List。 
@ outputCol="features"， 运 行 后 产生 的 Vector 特征 字段 。 


(2) 创建 DecisionTreeClassifier， 进 行 多 元 分 类 ， 传 入 参数 : 


@ labelCol="label"， 标 签字 段 。 
@ featuresCol= "features"， 前 一 阶段 产生 的 Vector 特征 字段 。 
@ maxDepth =5,maxBins=20， 决 策 树 训练 参数 。 


(3) 建立 dt_pipeline 机 器 学 习 流 程 ， 使 用 Pipeline0 传 入 stages 阶段 参数 ，stages= 
[vectorAssembler ,dt ]。 最 后 将 运行 结果 存放 在 dt_pipeline 变量 中 。 


本 J03 要 看 pipeline 阶段 
创建 dt_pipeline 后 ， 可 以 使 用 getStages() 看 到 每 一 个 阶段 ， 在 本 范例 只 有 两 个 阶段 。 


In [22]: dt_pipeline.getStages() 


Out[22]: [VectorAssembler_4235a65d78f1d27879e6, 
DecisionTreeClassifier 4195b5875dac5aac84b2] 
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站 本 国人 用 dt_pipeline 进行 数据 处 理 与 训练 


之 前 我 们 已 经 建立 了 机 器 学 习 流程 dt_pipeline 下 面 使 用 dt_pipeline 进行 数据 处 理 与 训练 
《0i 使 用 dt_pipeline.fit 进行 训练 


以 下 程序 代码 使 用 dt_pipeline.fit 进行 数据 处 理 与 训练 ， 传 入 train_df 训练 数据 。 
训练 数据 会 执行 dt_pipeline 的 所 有 阶段 ， 最 后 产生 的 结果 是 pipelineModel。 


In [23]: pipelineModel=dt_pipeline.fit(train_df) 


CI02 查看 训练 完成 后 的 决策 树 模型 


pipelineModel 的 第 2 阶段 会 产生 决策 树 的 模型 ， 因 为 从 0 算 起 ， 所 以 是 stages[1]， 可 
以 用 下 列 指令 查看 训练 完成 后 的 决策 树 模型 。 


In [24]: pipelineModel.stages[1] 


Out[24]: DecisionTreeClassificationModel (uid=DecisionTreeClassifier_ 
492184b14ab6d1139a89) of depth 5 with 63 nodes 


人 3 查看 训练 完成 后 的 决策 树 模 型 规则 


还 可 以 进一步 使 用 toDebugString 来 查看 决策 树 模型 的 规则 ， 加 上 [:500] 只 显示 前 500 


In [25]: prlnt pipelineModel.stages[1].toDebugString[:500] 


DecisionTreeClassificationModel (uid=DecisionTreeClassifier 
c5aac84b2) of depth 5 with 63 nodes 
If (feature 6 <= 3656.9) 
If (feature 0 <= 2582.6) 
If (feature 16 <= 6.9) 
If (feature © <= 2464.6) 
If (feature 3 <= 9.9) 
predict: 3.9 
Else (feature 3 > 0.90) 
predict: 2.9 


21.4 使 用 pipelineModel 进行 预测 


之 前 我 们 已 经 训练 完成 并 建立 模型 ， 现 在 我 们 可 以 进行 预测 。 
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人 Ri) 使 用 pipelineModeltransform 进行 预测 


以 下 程序 代码 pipelineModel 使 用 transform 方法 传 入 test_df 测试 数据 并 进行 预测 。 


In [26]: predicted = pipelineModel.transform(test df) 


人 2 查看 新 增 的 字段 
可 以 查看 产生 后 的 Schema (参考 图 21-3)。 


In [72]: print predicted .columns 
['f0', 'f1', 'f2', 'f3', 'f4', 'f5', 'f6', 'f7', 'f8', 'f9', 'f10', 'f11’, 'f1 
2', "f13", "f14', 'f15', ‘f16', 'f17', ‘f18', 'f19’, *f29', 'f21', 'f22', 'f23 
,1 'f24', 'f25, 'f26', 'f27’, 'f28', ‘f29', 'f30', 'f31’, 'f32', 'f33', 'f34' 
, 'f35', 'f36', 'f37', 'f38', 'f39', "'f40', 'f41', 'f42', 'f43', 'f44', 'f45', 
'T46'，'T47， ‘152', 'f53', ‘label’, ‘features 


"rawprediction'， 预测 后 新 增 的 字段 


"probability', ‘prediction"] 


图 21-3 查看 新 增 的 字段 
C103 查看 预测 结果 ( 见 图 21-4) 


预测 后 新 增 的 字段 


Bbel','prediction'4show(10) 


In [28]: predicted.select('features', 'rawPrediction', "probability’, " 


-16.6,453.6,12979... .1[6.6,9.9241716923.. .1 
.1[9.9,453.9,12979....1[9.9,9.9241716923...1 2.61 
1(54, [8,1,2,3,4,5,.,.1[9.9,453.9,12979....1[9.9,9.9241716923.. .1 2.91 
1(54, [0,1,2,3,4,5,...1[9.9,453.0,12979....1[9. 241716923.. .1 2.61 


21-4 查看 预测 结果 
从 以 上 运行 结果 可 以 看 到 新 增 的 字段 。 


@ ”rawprediction: 后 续 我 们 评估 模型 准确 率 时 使 用 。 
@ prediction: 预测 的 结果 为 0~6。 
@ probability: 除了 知道 预测 结果 ， 还 能 够 预测 0~6 的 概率 。 


人 4 查看 预测 结果 与 概率 
probability 字段 太 长 ， 无 法 完全 显示 ， 这 里 使 用 take(10) 来 查看 部 分 数据 。 
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predicted.select('probability,, 'prediction]-take(10) 


[Row(probability=Densevector([6.9，96.6242, [8.6445] e.e6e2，6.6，9.2711，6.6])，prediction=2.9)， 
Row(probability=DenseVector( [9.9, 9.9242, 0.6445, 9.9692, 9.9, 9.2711, 9.9]), 
Row(probability=DenseVector([9.9, 9.9242, 9.6445, 9.9692, 9.9, 9.2711, 9.9]), 
Row(probability=DenseVector([9.9, 9.9242, 9.6445, 9.9692, 9.9, 9.2711, 9.9]), 
Row(probability=DenseVector( [0.9, 9.9242, 9.6445, 9.9602, 9.9, 9.2711, 9.9]), 
Row(probability=DenseVector( [0.0, 0.0242, 9.6445, 9.9602, 8.9, 9.2711, 9.6]), 
，9.6242，6.6445，96.9692，9.9，9.2711，96.9])， 
，9.6242，6.6445，96.9662，9.9，9.2711，96.9])， 
Row(probability=Densevector([9.9，96.9242，9.6445，9.9692，6.9，96.2711，9.9])，prediction=2.9)， 
Row(probability=DenseVector([9.9, 9.9334, 9.3962, [9.4813,] e.6，96.179，6.9])，prediction=3.9)] 


从 上 面 的 运行 结果 可 以 看 到 probability 是 DenseVector 格式 : 


@ 例如 ， 第 1 项 数据 ([0.0, 0.0242, 0.6445, 0.0602, 0.0, 0.2711, 0.0]), prediction=2.0) 从 0 


算 起 第 2 个 字段 的 预测 概率 0.6445 最 高 ， 所 以 最 后 预测 结果 是 2。 


@ 例如， 第 10 项 数据 [0.0, 0.0334, 0.3062, 0.4813, 0.0, 0.179, 0.0]), prediction=3.0)] 从 0 


算 起 第 3 个 字段 的 预测 概率 0.4813 最 高 ， 所 以 最 后 预测 结果 是 3。 


评估 模型 的 准确 率 
之 前 我 们 已 经 建立 了 模型 ， 我 们 希望 能 评估 模型 的 准确 率 。 
人 EXOi) 导入 模块 


首先 ， 自 pyspark.ml.evaluation 导入 MnulticlassClassificationEvaluator 模块 。 


In []: from pyspark.ml.evaluation Import MulticlassClassificationEvaluator 


本 B02 创建 MulticlassClassificationEvaluator 
创建 MulticlassClassificationEvaluator 传 入 下 列 参数 : 


@ labelCol="label"， 标 签字 段 。 
@ predictionCol="prediction"， 预 测字 段 。 


@ metricName="accuracy"， 准 确 率 。 


运行 后 创建 evaluator。 


In [169]: evaluator = MulticlassClassificationEvaluator( 
labelCol="label", predictionCol="prediction", 
metricName="accuracy") 


计算 accuracy 
可 以 执行 下 列 命令 计算 accuracy: 
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In [32]: predictions=pipelineModel.transform(test df) 
accuracy = evaluator.evaluate(predictions) 
accuracy 


Out[32]: 9.7632329245727552 
以 上 程序 代码 说 明 如 下 : 
(1) 使 用 pipelineModel.transform 传 入 test_df 测试 数据 进行 预测 预测 结果 是 predictions, 


(2) 使 用 evaluatorevaluate 传 入 predictions 参数 ， 计 算 accuracy。 
(3) 运行 结果 准确 率 大 约 是 0.7。 


使 用 TrainValidation 进行 训练 验证 
找 出 最 佳 模型 
在 第 13.10 节 中 ， 我 们 使 用 Spark MLlib 必须 自行 编写 evalAllParameter 函数 来 进行 训 


练 评 估 ， 找 出 最 佳 参数 模型 。 在 Spark.ML 中 ， 我 们 可 以 使 用 TrainValidation 模块 进行 训练 
验证 来 找 出 最 佳 模 型 。 


(CEI01 导入 模块 


首先 ， 从 pyspark.ml.tuning 导入 ParamGridBuilder 与 TrainValidationSplit 模块 。 


In [56]: from pyspark.ml.tuning Import ParamGridBuilder,TrainValidationSplit 


02 设置 训练 验证 的 参数 


我 们 使 用 ParamGridBuilder 设置 impurity 两 个 参数 值 .maxDepth 三 个 参数 值 与 maxBins 
三 个 参数 值 ， 所 以 后 续 执行 训练 验证 时 会 执行 2*3*3 = 18 次 。 


In [79]: paramGrld = ParamGridBuilder()\ 
-addGrid(dt.Impurity, [ "glini"v"entropy] 入 
-addGrid(dtmaxDepth, [ 10,15,25])\ 
-addGrid(dt.maxBins, [30,40,50])\ 
-bulld0) 


ER3 创建 TrainValidationSplit 
创建 TrainValidationSplit 传 入 下 列 参数 ， 运 行 结果 是 tvs 变量 : 


estimator=dt， 之 前 创建 的 DecisionTreeClassifier。 

evaluator=evaluator， 之 前 创建 的 MulticlassClassificationEvaluator。 
estimatorParamMaps=paramGrid， 之 前 创建 的 ParamGridBuilder。 
trainRatio=0.8， 训 练 时 会 先 将 数据 按照 8:2 的 比例 分 成 训练 数据 与 验证 数据 。 
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In[]: tvs= TrainValidationsplit(estimator=dt,evaluator=evaluator, 
estimatorParamMaps=paramGrid,trainRatlo=0.8) 


D04 建立 tvs_pipeline 


建立 tvs_pipeline ， 包 含 阶段 与 之 前 建立 的 训练 pipeline 大 致 相同 ， 只 有 最 后 一 个 阶段 
tvs 是 上 一 步 所 创建 的 TrainValidationSplit。 


In [183]: tvs_plpeline = Pipeline(stages=[vectorAssembler [ tvs]) | 只 有 最 后 一 个 阶段 不 同 
D05 使 用 tvs_pipeline 流程 进行 训练 验证 


以 下 程序 代码 使 用 tvs_pipeline.fit 进行 训练 与 验证 ， 传 入 train_df 训练 数据 。 训 练 数 据 
会 执行 tvs_pipeline 的 所 有 阶段 ,最 后 阶段 会 执行 训练 验证 18 次 ， 时 间 较 长 ， 最 后 产生 的 结 
果 是 tvs_pipelineModel。 


In [38]: tvs_pipelineModel =tvs_pipeline.fit(train_df) 


C706 坦 看 训练 完成 的 最 佳 模型 


tvs_pipelineModel 的 第 2 阶段 是 Trainvalidation， 因 为 是 从 0 算 起 ， 所 以 stages[1] 的 
bestModel 属性 是 最 佳 模型 。 可 以 用 下 列 toDebugString 来 查看 最 佳 模型 规则 ，[:500] 只 显示 
前 500 个 文字 。 


In [39]: bestModel=tvs_pipelineModel.stages[1].bestModel 
prlnt bestModel.toDebugString[:500] 


DecisionTreeClassificationModel (uid=DecisionTreeClassifier| 
If (feature 6 <= 2699.9) 
If (feature 6 <= 2454.6) 
If (feature 23 <= 96.9) 
If (feature 3 <= 6.9) 
If (feature 12 <= 09.0) 
If (feature 5 <= 661.0) 
If (feature 9 <= 1963.96) 
If (feature 5 <= 216.9) 
If (feature 6 <= 299.6) 
If (feature 9 <= 726.9) 
Predict: 2.9 


人 7 使 用 最 佳 模型 进行 预测 


先 使 用 predictions = tvs_pipelineModel.transform(test_df) 传 入 test_df 进行 预测 ， 然 后 用 
predictions 显示 预测 结果 , 并 使 用 .withColumn Renamed 将 部 分 特征 字段 名 称 用 中 文 来 显示 ， 
如 图 21-5 所 示 。 
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In [40]: predictions = tvs_plpelineModel.transform(test df) 

result=predictions.withColumnRenamed("f0", "海拔 ") \ 
.withColumnRenamed("f1", "方位 ") \ 
-withColumnRenamed("f2", ™ 
‘withColumnRenamed("f3", 
.withColumnRenamed("f4", 
:withColumnRenamed(™ 

result.select(" 海 拔 "" 方 位 "," 斜 率 "," 垂直 距离 ", "水 平 距离 "," 阴影 "label"v"predictlon").show(10) 


SR SEE PT Re PO + 
1 海拔 | 。 方位 | ”和 斜率 | 垂直 距离 | 水 平 距离 | ”阴影 11abellprediction| 
avs sabe a Me he eed + 

11859.91 18.9112.9| 67.9111.91 99.9| 2.91 2.91 

11872.91 27.9116.9| 95.9122.91124.9| 2.91 2.91 

11872.91 35.9121.91129.9118.91 85.9|1 5.91 5.9| 

11877.91 19.9118.9| 85.9125.91198.9| 2.91 2.9| 

11877.8| 27.9124.9| 99.9118.91 95.91 5.9| 5.91 

11879.91 18.9114.91 6.91 9.91129.91 5.8| 5.9| 

11886.9| 16.9115.9| 39.9| 7.91156.91 5.91 5.6| 

11889.9| 39.9123.91175.9144.91159.9| 5.91 2.91 
11889.91353.9139.9| 95.9139.91 67.9| 5.91 2.91 

11899.91 34.9122. 


only showing top 


图 21-5 使 用 最 佳 模型 进行 预测 
C308 计算 最 佳 模型 accuracy 
以 下 列 程序 评估 最 佳 模型 accuracy 是 0.93: 


In [41]: accuracy = evaluator.evaluate(predictlons) 
accuracy 


Out[41]: 9.9399695679547492 


结论 


本 章 介绍 了 Spark ML Pipeline 机 器 学 习 流程 ,包括 建立 pipeline 机 器 学 习 流 程 ， 完 成 数 
据 处 理 、 训 练 模型 、 评 估 模 型 ， 并 预测 Cover Type 森林 覆盖 分 类 ， 最 后 使 用 训练 验证 找 出 最 
佳 模型 ， 提 高 预测 准确 度 。 下 一 章 ， 我 们 将 介绍 Spark ML Pipeline 机 器 学 习 流程 回归 分 析 。 
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Spark ML Pipeline 机 器 
学 习 洪 程 回 上 归 分 析 


本 章 将 使 用 第 18 章 介绍 的 “Bike Sharing” 数 据 集 ， 示 范 如 
何 使 用 Spark 机 器 学 习 流 程 (ML Pipeline) 回归 分 析 。 使 用 决策 
了 种 不 同 的 情况 〈 季 节 、 月 份 、 时 间 、 假 日 、 星 期、 
E 作 月 、 温 度 、 体 感 温度 、 湿 度 、 风 速 等 ) 下 来 预测 每 一 
小 时 的 租 上 a 并 且 使 用 训练 验证 与 交叉 验证 找 出 最 佳 模型 ， 
提高 预测 准确 度 ， 最 后 介绍 使 用 GBT (Gradient-Boosted Trees) 
梯度 提升 决策 树 ， 进 一 步 提高 预测 准确 度 。 


CB” Python+Spark 2.0+Hadoop 机 器 学 习 与 大 数据 实战 


> “Bike Sharing” 数 据 集 机 器 学 习 流程 ( ML Pipeline ) 说 明 


“Bike Sharing”( 共 享 单车 ) 数据 集 机 器 学 习 流程 比较 简单 ， 只 有 三 个 阶段 ( 见 图 22-1)。 


Spark ML pipeline 
训练 


pipeline fit() 


pipelineModel.transform() 


图 22-1 共享 单车 数据 集 机 器 学 习 流程 


1. 建立 机 器 学 习 流程 pipeline 
包含 3 个 阶段 (stages》 前 2 个 阶段 是 数据 处 理 , 第 3 个 阶段 是 DecisionTreeRegressor 机 
器 学 习 决 策 树 回归 分 析 。 


@ VectorAssembler: 将 所 有 的 特征 字段 整合 成 Vector。 
VectorIndexer: 将 不 重复 数值 的 数量 小 于 等 于 maxCategories 参数 值 所 对 应 的 字段 视 
为 分 类 字段 ， 否 则 视 为 数值 字段 。 

@ DecisionTreeRegressor: 决策 树 回 归 分 析 。 


2. 训练 

“训练 数据 DataFrame ”使 用 pipeline .fit() 进行 训练 。 系 统 会 按照 顺序 执行 每 一 个 阶 
段 ， 最 后 产生 pipelineModel 模型 。pipelineModel 与 pipeline 类 似 ， 只 是 多 了 训练 后 建立 的 
模型 Model。 

3. 预测 

“新 数据 DataFrame ”使 用 pipelineModeltransform() 。 系 统 会 按照 顺序 执行 每 一 个 阶 
段 ， 最 后 使 用 DecisionTree Regressor Model 进行 预测 。 预 测 完成 后 会 产生 “预测 结果 


DataFrame”。 
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WE ws 


我 们 将 使 用 IPython Notebook 示范 ， 因 为 使 用 IPython Notebook 具有 互动 性 的 好 处 ， 可 
以 看 到 指令 执行 后 的 结果 。 以 下 示范 在 本 地 执行 ， 读 者 也 可 以 参考 第 9.9 节 的 说 明 在 不 同 的 
模式 运行 IPython Notebook。 读 者 可 以 参考 本 书 附录 A 有 关 本 书 范例 程序 下 载 与 安装 的 说 
明 ， 下 载 本 章 IPython Notebook 范例 文件 进行 练习 。 


22.1.1 在 local 模式 执行 IPython Notebook 
在 “终端 ” 程序 输入 下 列 命令 : 


> 切换 ipynotebook 工作 目录 
cd ~/pythonwork/ipynotebook 


> ”本 地 执行 pyspark 使 用 IPython Notebook 界面 
PYSPARK DRIVER PYTHON=ipython PYSPARK DRIVER _ PYTHON OPTS="notebook" pyspark 


按 Enter 键 后 就 会 启动 浏览 器 ， 默 认 的 网 址 是 http://localhost:8888， 进 入 后 即 可 看 到 
IPython Notebook 的 界面 。 


人 Xi) 配置 文件 读 取 的 路 径 
在 IPython Notebook 使 用 下 列 指令 配置 文件 读 取 的 路 径 : 


In [1]: global Path 
If sc.master[0:5]=="local" : 
Path="file:/home/hduser/pythonwork/PythonProject/" 
else: 
Path="hdfs://master:9000/user/hduser/" 


以 上 程序 判断 : 


@ 如 果 sc.master[0:5] 是 "local"， 代表 当前 是 本 地 执行 ， 读 取 本 地 文件 。 
@@ 如果 sc.master[0:5] 不 是 "local"， 也 就 是 在 cluster 执行 ， 就 有 可 能 是 YARN client 
或 Spark stand alone， 读 取 HDFS 文件 。 


人 2 读 取 文 本 文件 并 且 查 看 数据 项 数 
下 列 指 令 使 用 sqlContext.read 导入 文本 文件 并 创建 row_df DataFrame。 


@ .format("csv")， 指 定 为 csv 格式 。 
@ .option("header", "true")， 指 定 第 一 行 是 字段 名 。 
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@ .load(Patht"data/hour.csv")， 指 定 要 加 载 文 件 。 
@@ 导入 完成 后 ， 用 printrow_df.count() 打印 项 数 。 


In [6]: hour_df spark.read.format('csv) \ 
-option("header", ‘true').load(Path*+"data/hour.csv") 
hour_df.count() 


Out[6]: 17379 


以 上 运行 结果 显示 共计 17379 项 数据 。 
D03 查看 字段 
可 以 使 用 .columns 查看 导入 数据 的 所 有 字段 。 


In [60]: prlnt hour_df.columns 


['instant', ‘dteday', ‘season’, ‘yr'’, ‘mnth', ‘hr'’, ‘holiday', ' 
weekday', 'workingday'， 'weathersit', ‘temp', ‘atemp’, ‘hum’, ‘'w 
indspeed'，'casual'，'registered'，'cnt'] 


人 04 合 齐 字段 
参考 第 18.3 节 使 用 .drop 舍弃 不 需要 的 字段 。 


In [34]: hour_df=hour_df.drop("instant").drop("dteday") \ 
.drop('yr'").drop("casual").drop("registered") 


D05 查看 Schema 


使 用 printSchema() 来 查看 导入 数据 的 Schema, 我 们 可 以 看 到 所 有 字段 都 是 string 数据 
格式 ， 如 图 22-2 所 示 。 


In [11]: print hour_df.printSchema() 


root 

1 season:| string](nualable = true) 

1-- mnth: string (nullable = true) 

1-- hr: string (nullable = true) 

1-- holiday: string (nullable = true) 
1-- weekday: string (nullable = true) 
1-- workingday: string (nullable = true) 
1-- weathersit: string (nullable = true) 
1-- temp: string (nullable = true) 

1-- atemp: string (nullable = true) 

1-- hum: string (nullable = true) 

1-- windspeed: string (nullable = true) 
1-- cnt: string (nullable = true) 


图 22-2 查看 Schema 
人 ED6 导入 相关 模块 
我 们 需要 从 pyspark.sql.functions 导入 col 模块 ， 后 续 可 以 用 此 模块 读 取 字段 数据 。 
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In [13]: from pyspark.sql.functions Import col 


Fl07 将 string 转 为 double 
以 下 指令 把 hour_df 转换 为 double。 


以 上 指令 说 明 如 下 : 


In [37]: hour_df= hour df.select([ col(column).cast("double").alias(column) 


for column In hour_df.columns]) 


(1) 用 hour_df.select 选取 字段 。 


(2) for column in hour_df.columns 执行 全 部 字段 。 


(3) col(column) 读 取 字 段 数 据 。 
(4) .cast("double") 转换 为 double。 
(5) .alias(column) 把 别名 设置 为 原来 的 字段 名 。 


人 《08 查看 已 经 转换 为 double ( 见 图 22-3 ) 


In [15]: hour_df.printSschema() 


root 


season: double (nullable = true) 
nth: double (nullable = true) 


- hr: double (nullable = true) 

- holiday: double (nullable = true) 

- weekday: double (nullable = true) 

- workingday: double (nullable = true) 
- weathersit: double (nullable = true) 
- temp: double (nullable = true) 

- atemp: double (nullable = true) 

~ hum: double (nullable = true) 


- windspeed: double (nullable = true) 
- cnt: double (nullable = true 


人 《9 查看 结果 
使 用 hour_df.show(5) 查看 结果 : 


图 22-3 查看 已 经 转换 为 double 


已 经 转换 为 double 


In [39]: hour_df.show(5) 


+------ +----+---+-------: 十 ------- +---------- +---------- +----+------ +----+--------- +----+ 
Iseason|mnth| hrlholiday|weekday|workingday|weathersit|temp| atemp| humlwindspeed| cnt| 
全 -====- 和 个 -= -======- 和 本 半 +----+ 
| 31.61 1.6le.e| 9.6| ”6.61 1.619.2419.287919.811 9.6116.91 
| 31.61 1.9l1.9| 9.9| 6.61 1.619.2219.2727| 9.8| 9.9|49.9| 
| 1.6| 1.6l2.6| 9.6| ”6.61 1.619.2219.27271 6.81 9.9132.61 
| 1.61 1.6l3.6| 6.61 ”6.61 1.619.2419.287916.751 9.6113.61 
| 31.61 1.614.6| 8.6| ”6.61 1.619.2419.28791 9.61 1.61 
4-===-- ee 和 全 -==-====-~ 和 二 i 和 


only showing top 5 rows 
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22.1.2 ”将 数据 分 成 train_df 与 test_df 


使 用 randomSplit 将 数据 按照 7 :3 的 比例 分 成 train_df (训练 数 据 〉 与 test_df (测试 数 
据 )， 并 且 .cache() 暂 存在 内 存 中 ， 以 加 快 后 续 的 程序 运行 速度 。 


In [40]: train_df test df = hour_df.randomSplit([0.7, 0.3]) 
train_df.cache() 
test_df.cache() 


Out[40]: DataFrame[season: double, mnth: double, hr: double, holiday: double 
, Weekday: double, workingday: double, weathersit: double, temp: do 
uble, atemp: double, hum: double, windspeed: double, cnt: double] 


建立 机 器 学 习 pipeline 流程 


本 章 我 们 将 建立 如 下 机 器 学 习 pipeline 流程 : 

(1) VectorAssembler: 将 多 个 特征 字段 整合 成 一 个 特征 的 Vector。 

(2) VectorIndexer: 将 不 重复 数值 的 数量 小 于 等 于 maxCategories 参数 值 所 对 应 的 字段 视 
为 分 类 字段 ， 否 则 视 为 数值 字段 。 

(3) DecisionTreeRegressor: 决策 树 回 归 分 析 ， 预 测 每 一 小 时 租借 数量 。 

为 何 要 使 用 VectorIndexer 呢 ?因为 在 BikeSharing 数据 集 有 月 份 (1~12)、 星 期 (0~6)、 
小 时 (0~23) 等 字段 。 在 决策 树 运算 时 ， 如 果 这 些 字 段 被 视 为 分 类 字段 ， 计 算 后 准确 率 会 比较 
出 。 

在 本 范例 我 们 将 设置 maxCategories = 24， 如 此 月 份 (不 重复 数值 的 数量 为 12 入 星期 (不 
重复 数值 的 数量 为 7)、 小 时 (不 重复 数值 的 数量 为 24) 不 重复 数值 的 数量 小 于 等 于 
maxCategories， 所 以 月 份 、 星 期 、 小 时 都 会 被 决策 树 算法 视 为 分 类 字段 。 

如 果 我 们 设置 maxCategories = 4， 如 此 月 份 、 星 期 、 小 时 都 不 会 被 决策 树 算法 视 为 数值 
字段 ， 因 而 计算 后 准确 率 会 比较 低 。 


GI01 导入 模块 


以 下 导入 模块 与 第 20 章 大 致 相同 ， 只 是 改 为 VectorIndexer、DecisionTreeRegressor。 


In []: from pyspark.ml Import Pipeline 
from pyspark.ml.feature Import StringIndexer |vVectorIndexellVectorAssembler 
from pyspark.ml.regression Import|DecisionTreeRegressoi 


人 2 创建 特征 字段 List 


hour df 除了 最 后 一 个 字段 是 label， 其 他 都 是 特征 字段 ， 所 以 使 用 hour_df.columns[:-1] 
来 获取 特征 字段 List。 
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In [42]: featuresCols = hour_df-columns[:-1] 
print featuresCols 


"weathersit'，"temp'，"atemp'， 


['season', ‘mnth', 'hr', ‘holiday', 'weekday', 
‘hum', "windspeed'] 


"workingday'， 


503 建立 pipeline 
建立 pipeline 程序 代码 如 下 : 


In [45]: vectorAssembler = VectorAssembler(inputCols=featuresCols, outputCol="aFeatures") 


VectorIndexer = VectorIndexer(inputCol="aFeatures", outputCol="features", maxCategorles=24) 


dt = DecisionTreeRegressor(labelCol="cnt",featuresCol= 'features) 
dt_pipeline = Pipeline(stages=[vectorAssembler,vectorIndexer ,dt]) 


以 上 程序 代码 说 明 如 下 : 


(1) 创建 VectorAssembler 传 入 参数 ， 结 果 存放 于 vectorAssembler 变量 : 


(2) 创建 VectorIndexer 传 入 参数 ， 结 果 存 放 于 vectorIndexer 变量 : 


@ maxCategories =24， 月 份 、 星 期 、 小 时 都 会 被 决策 树 算法 视 为 分 类 字段 。 


(3) 创建 DecisionTreeRegressor 传 入 参数 ， 结 果 存 放 于 dt 变量 : 


inputCols=featuresCols， 之 前 步骤 2 时 创建 的 特征 字段 List。 
outputCol="aFeatures"， 暂 时 输出 的 整合 特征 字段 。 


inputCol="aFeatures"， 上 一 阶段 vectorAssembler 的 输出 字段 。 
outputCol="features"， 执 行 后 产生 的 features 特征 字段 。 


@ labelCol="cnt"， 标 签字 段 。 
@ featuresCol="features"， 上 一 阶段 产生 的 features 特征 字段 。 


最 后 ， 创 建 dt_pipeline : 


[vectorAssembler, vectorIndexer , dt] 。 


人 4 查看 pipeline 阶段 
创建 dt_pipeline 后 ， 可 以 使 用 getStages() 看 到 每 一 个 阶段 。 


In [44]: dt_pipeline .getStages() 


Out[44]: [VectorAssembler_4a128d193266b8e52288, 
VectorIndexer_4c99ac7fd4f8d3692ab5, 
DecisionTreeRegressor_427db5d8359a7de978f1] 
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使 用 dt_pipeline 进行 数据 处 理 与 训练 


之 前 我 们 已 经 建立 机 器 学 习 流程 pipeline， 下 面 使 用 pipeline 进行 数据 处 理 与 训练 。 
C01 使 用 dt_pipeline.fit 进行 训练 


以 下 程序 代码 使 用 dt_pipeline.fit 进行 数据 处 理 与 训练 ， 传 入 train_df 训练 数据 。 
训练 数据 会 执行 pipeline 的 所 有 阶段 vectorAssembler、vectorIndexer 和 dt， 最 后 产生 的 
结果 是 dt_pipelineModel。 


In []: dt pipelineModel = dt_pipeline.fit(train_df) 


I02 查看 训练 完成 后 的 决策 树 模型 


pipelineModel 的 第 3 阶段 会 产生 决策 树 的 模型 ， 从 0 算 起 stage[2]， 可 以 用 下 列 指令 
查看 此 模型 。 


In [52]: dt_pipelineModel.stages[2] 


Out[52]; DecisionTreeRegressionModel (uid=DecisionTreeRegressor| 
of depth 5 with 63 nodes 


JI03 查看 训练 完成 后 的 决策 树 模 型 规则 
还 可 以 进一步 使 用 toDebugString 来 查看 决策 树 模 型 的 规则 。 


In [47]: print dt_pipelineModel.stages[2].toDebugString[:500] 


DecisionTreeRegressionModel (uid=DecisionTreeRegressor_427db5 
d8359a7de978f1) of depth 5 with 63 nodes 
If (feature 2 in {f96.6,1.6,2.6,3.6,4.6,5.6,6.6,22.6,23.9}) 
If (feature 2 in {0.6,1.0,2.0,3.9,4.9,5.90}) 
If (feature 2 in {1.6,2.6,3.6,4.6,5.6}) 
If (feature 4 in {1.9,2.9,3.6,4.6,5.6}) 
If (feature 2 in {2.9,3.9,4.9]) 
predict: 6.649196392916275 
Else (feature 2 not in {2.6,3.6,4.6}) 
predict: 21.648786487864876 
Else (feature 4 not in {1.6,2.6,3.9,4.9,5.6}) 


22.4 使 用 pipelineModel 进行 预测 


之 前 我 们 已 经 训练 完成 并 建立 模型 ， 现 在 我 们 可 以 进行 预测 。 
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01 使 用 pipelineModeltransform 进行 预测 


以 下 程序 代码 pipelineModel 使 用 transform 方法 传 入 test_df 测试 数据 并 进行 预测 。 


In [55]: predicted_df=dt_pipelineModel.transform(test_df) 


人 2 查看 新 增 的 字段 
可 以 查看 产生 后 的 Schema: 


In [56]: print predicted_df.columns 
['season', ‘mnth', ‘hr', "holiday', 'weekday', 'workingday', 'weathersi 
t', ‘temp', 'atemp', 'hum', 'windspeed', 'cnt', 'aFeatures', 'features’ 
, "prediction'’] 


C103 查看 预测 结果 ( 见 图 22-4) 


In [63]: predicted_df.select('season’, ‘mnth’, ‘hr', ‘holiday, weekday, ‘workingday, \ 
‘weathersit’, Temp’, atemp', ‘hum’, Windspeed','cnt’,'prediction’).show( 10) 
predictio' 
1 1.9| 1.6l9.9| 9.9| 9.9| 9.91 1.919.1619.1364| 9.81 2.5929239766981 
| 1,8| 1.919.9| 8.9| 98.9| 6.91 41.919.261 9,39319.561 2 .50292397668819| 
| 1.9| 1.9l9.9| 9.91 9.9l 9.91 1.919.3819.39391 9.4| 
1 4.91 1.919.91| 9.91 4.91 1.91 4.919.9619.969619.431 
| 4.91 1.919.9| 6.91 1.6| 1.91 4.919.1219.12121 9.51 
1 34.91 1.919.9| 9,61 1.91 4.91 4.919.2419.22731 9.6| 
1 4-91 1.919.9| 9.91 1.91 1.91 2.919.2419.227319.651 
1 1.91 1.919.9| 9.9| 2.91 1.91 4.91 9.21 9.19719.531 
1 4.91 1.919.9| 。 9.91 2.6| 1.91 2.919.2619.22731 9.71 
1 1.9| 1.919.9| 9.91 3.91 1.91 1.9| 9.219.257619.641 
个 ia ee a ee i rp es he dh Dy + 


实际 的 数值 | | 预测 的 结果 


图 22-4 查看 预测 结果 


评估 模型 的 准确 率 


之 前 我 们 已 经 建立 了 模型 ， 下 一 步 我 们 希望 能 评估 模型 的 准确 率 。 
E301 导入 模块 


首先 从 pyspark.ml.evaluation 导入 Regression Evaluator 模块 。 


In [64]: from pyspark.ml.evaluation Import RegressionEvaluator 


创建 Regression Evaluator 


创建 Regression Evaluator 传 入 下 列 参 数 : 
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@ labelCol='cnt， 标 签字 段 。 

® predictionCol='prediction 。 

@ metricName="rmse"， 也 就 是 RMSE。 
运行 后 创建 evaluator。 


In [66]: evaluator = RegressionEvaluator(labelCol='cnt’, 
predidionCol='prediction,, 
metricName="rmse") 


3 计算 RMSE 
可 以 执行 下 列 命令 来 计算 RMSE: 


In [67]: predicted_df=dt_pipelineModel.transform(test_df) 
rmse = evaluator.evaluate(predicted_df) 
rmse 


Out[67]: 92.22331379768197 


以 上 程序 代码 说 明 如 下 : 


(1) 使 用 dt_pipelineModel.transform 传 入 test_df 测试 数据 进行 预测 ， 预 测 结果 是 
predicted_df。 

(2) 使 用 evaluatorevaluate 传 入 predicted_df 参数 ， 计 算 RMSE。 

(3) 运行 结果 准确 率 是 92。 


使 用 TrainValidation 进行 训练 验证 
找 出 最 佳 模 型 
在 第 13.10 节 中 ， 我 们 使 用 Spark MLlib 必须 自行 编写 evalAllParameter 函数 来 进行 训 


练 评估 ， 以 便 找 出 最 佳 参 数 模型 。 在 Spark.ML 中 ， 我 们 可 以 使 用 TrainValidation 进行 训练 验 
证 ， 找 出 最 佳 模型 。 


E301 导入 模块 


先导 入 模块 , 主要 是 从 pyspark.ml.tuning 导入 ParamGridBuilder 与 TrainValidationSplit 。 


In [56]: from pyspark.ml.tuning Import ParamGridBuilder,TrainValidationSplit 


CT02 设置 训练 验证 的 参数 


以 下 我 们 使 用 ParamGridBuilder 设置 maxDepth 四 个 参数 值 与 maxBins 四 个 参数 值 ， 所 
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以 后 续 执行 训练 验证 时 会 执行 4*4=16 次 。 
请 注意 ! 因为 我 们 设置 了 maxCategories =24， 所 以 maxBins 必须 大 于 24。 


In [73]: paramGrid = ParamGridBullder()\ 
-addGrid(dt.maxDepth, [ 5,10,15,25])\ 
.addGrid(dt.maxBins, [25,35,45,50])\ 
.bulld() 


D03 创建 TrainValidationSplit 

创建 TrainValidationSplit 传 入 下 列 参 数 ， 运 行 后 创建 tvs。 
estimator = dt， 之 前 创建 的 DecisionTreeRegressor。 
evaluator = evaluator， 之 前 创建 的 RegressionEvaluator。 


estimatorParamMaps = paramGrid， 之 前 创建 的 ParamGridBuilder。 
trainRatio=0.8， 训 练 时 会 先 将 数据 按照 8 :2 的 比例 分 成 训练 数据 与 验证 数据 。 


In [58]: tvs = TrainValidationSplit(estimator=dt,evaluator=evaluator, 
estimatorParamMaps=paramGrid,trainRatio=0.8) 


04 建立 tvs_pipeline 


建立 tvs_pipeline 包含 阶段 与 之 前 建立 的 训练 pipeline 大 致 相同 ， 只 有 最 后 一 个 阶段 tvs 
是 上 一 步骤 所 创建 的 TrainValidationSplit。 


In [59]: tvs_pipeline = Pipeline(stages=[stringIndexer,encoder ,assembler, tvs]) 
本 D05 使 用 tvs_pipeline 流程 进行 训练 验证 


以 下 程序 代码 使 用 tvs_pipeline.fit 进行 训练 与 验证 ， 传 入 train_df 训练 数据 。 
训练 数据 会 执行 tvs_pipeline 的 所 有 阶段 ， 最 后 阶段 会 执行 训练 验证 16 次 ， 所 以 会 比较 
费时 ， 最 后 产生 的 结果 是 tvs_pipelineModel。 


In [58]: tvs_pipelineModel =tvs_pipeline.fit(train_df) 


CD06 坦 看 训练 完成 的 最 佳 模型 


tvs_pipelineModel 的 第 3 阶段 是 TrainValidation， 因 为 是 从 0 算 起 ， 所 以 stages[2] 的 
bestModel 属性 是 最 佳 模 型 。 用 下 列 toDebugString 来 查看 最 佳 模 型 规则 ，[:500] 只 显示 前 
500 个 文字 。 
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In [46]: bestModel=tvs_plpelineModel.stages[2].bestModel 
print bestModel.toDebugSstring[:500] 


DecisionTreeRegressionModel 
(uid=DecisionTreeRegressor_49d9a61275ccf736f9f3) of depth 19 with 1769 
nodes 
If (feature 2 in {9.9,1.9,2.9,3.9,4.9,5.9,6.9,22.9,23.9}) 
If (feature 2 in {9.9,1.9,2.9,3.9,4.9,5.9}) 
If (feature 2 in {2.9,3.9,4.9,5.9}) 
If (feature 4 in {f1.9,2.9,3.9,4.9,5.9}) 
If (feature 2 in {2.9,3.9,4.9]) 
If (feature 2 in {3.9,4.9]) 
If (feature 1 in {9.9,1.9,2.9,3.9,11.9]) 
If (feature 7 <= 9.4) 
If (feature 9 in {9.9,1.9}) 


人 7 评估 最 佳 模型 RMSE 
最 后 用 下 列 程序 评估 最 佳 模型 RMSE 是 82。 


In [78]: predictions = tvs_pipelineModel.transform(test_df) 
rmse= evaluator.evaluate(predictions) 
rmsel 


Out[78]: 82.82882328935622 


使 用 crossValidation 进行 交叉 验证 
找 出 最 佳 模 型 


我 们 还 可 以 更 进一步 用 crossValidation 交叉 验证 找 出 最 佳 模型 。k-Fold 交叉 验证 
(crossValidation〉 可 以 得 到 可 靠 稳 定 的 模型 ， 能 减少 过 度 学 习 或 学 习 不 足 的 情况 ， 一 般 常用 
为 10-Fold。k 值 越 大 ， 效 果 越 好 ， 只 是 所 需 时 间 也 越 多 。 以 下 为 了 方便 解说 与 避免 执行 时 间 
过 久 ， 我 们 只 以 k=3 来 说 明示 范 。 读 者 可 以 自行 设置 k 值 ， 只 是 需要 考虑 程序 运行 的 机 器 
性 能 ， 以 免 等 候 时 间 过 久 。 


人 EXO1) crossvalidation 交叉 验证 说 明 


k-Fold 的 crossValidation 交叉 验证 ,假设 k 是 3 的 做 法 如 下 : 


验证 训练 训练 训练 


将 数据 分 为 3 个 部 分 A、B、C， 会 执行 3 次 训练 验证 : 
(1) B+C 作为 训练 数据 ，A 作为 验证 数据 。 
(2) A+B 作为 训练 数据 ，C 作为 验证 数据 。 
(3) A+C 作为 训练 数据 ，B 作为 验证 数据 。 
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因为 之 前 ParamGridBuilder 设置 了 maxDepth 四 个 参数 值 与 maxBins 四 个 参数 值 ， 所 以 
后 续 执行 训练 验证 时 会 执行 4*4 = 16 次 ， 因 此 总 共 会 执行 16*3 = 48 次 。 
CD002 导入 模块 


先导 入 模块 ， 主 要 是 从 pyspark.ml.tuning 导入 ParamGridBuilder 与 CrossValidation 。 


In [81]: from pyspark.ml.tuning Import CrossValidator 


03 创建 交叉 验证 的 CrossValidator 


以 下 程序 代码 创建 交叉 验证 的 CrossValidator 与 之 前 创建 TrainValidationSplit 的 参数 大 
致 相同 ， 但 是 增加 了 最 后 一 个 参数 numFolds = 3。 


In [87]: cv = CrossValidator(estimator=dt, evaluator=evaluator, 
estimatorParamMaps=paramGrid, numFolds=3) 


人 4 建立 交叉 验证 的 cv_pipeline 


建立 cv_pipeline 包含 阶段 与 之 前 建立 的 训练 tvs_pipeline 大 致 相同 ， 只 有 最 后 一 个 阶段 
cv 是 上 一 步骤 所 创建 的 CrossValidator。 


In [88]: cv_plpeline = Pipeline(stages=[vectorAssembler,vectorIndexer ,cv]) 


本 705 使 用 cv_pipeline 流程 进行 交叉 验证 


以 下 程序 代码 使 用 cv_pipeline.fit 进行 训练 与 验证 ， 传 入 train_df 训练 数据 。 
训练 数据 会 执行 cv_pipeline 的 所 有 阶段 ， 所 以 会 比较 费时 ， 尤 其 是 最 后 阶段 ， 会 执行 训 
练 验证 48 次 ， 最 后 产生 的 结果 是 cv_pipelineModel。 


In [89]: cv_pipelineModel = cv_pipeline.fit(train_df) 


人 06 评估 最 佳 模 型 RMSE 
最 后 以 下 列 程序 评估 最 佳 模型 RMSE 大 约 是 81。 


In [65]: predictions = cv_pipelineModel.transform(test_df) 
rmse= evaluator.evaluate(predictions) 
rmse 


Out[65]: 81.4868895893453 


22.8 使 用 GBT Regression 


GBT (Gradient-Boosted Trees) 或 GBDT (Gradient-Boosted Decision Trees) 梯度 提升 决策 
树 与 随机 森林 Random Forests 都 是 集合 很 多 决策 树 ， 不 同 的 是 训练 的 方式 。Random Forests 
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可 以 并 行 产生 很 多 决策 树 ， 再 整合 了 所 有 决策 树 的 投票 结果 ， 将 投票 次 数 最 多 的 类 别 作为 最 终 
的 分 类 。GBT 一 次 只 产生 一 棵 决策 树 ， 再 根据 前 一 个 决策 树 的 结果 决定 如 何 产生 下 一 个 决策 
树 ， 所 以 无 法 并 行 处 理 。 


Dl01 创建 GBT Regression 
以 下 程序 代码 创建 GBT Regression: 


(1) 首先 导入 GBT Regression 模块 。 
(2) 建立 GBT Regression 变量 gbt。 
(3) 建立 gbt_pipeline， 与 之 前 决策 树 的 程序 代码 大 致 相同 ， 只 有 最 后 一 阶段 改 为 gbt。 


In [40]: from pyspark.ml.regression Import GBTRegressor 
gbt = GBTRegressor(labelCol="cnt",featuresCol= features') 
gbt_pipeline = Pipeline(stages=[vectorAssembler,vectorIndexer,gbt]) 


F302 使 用 GBT Regression 流程 训练 评估 


RMSE 越 低 ， 代 表 误 差 越 小 。 以 下 程序 代码 执行 训练 、 预 测 、 计 算 RMSE， 结 果 RMSE 
约 为 73， 使 用 GBT Regression 误差 变 小 了 。 


In [41]: gbt_plpelineModel = gbt_pipeline.fit(train_df) 
predicted_df=gbt_pipeline Model.transform(test_df) 
rmse = evaluator.evaluate(predicted_df) 
rmse 


Out[41]: 75.63126565293591 


C03 使 用 GBT Regression CrossValidation 找 出 最 佳 模型 
以 下 设置 CrossValidator 找 出 最 佳 模型 


In [45]: from pyspark.ml.tuning Import CrossValidator, ParamGridBullder 
from pyspark.ml.evaluation Import RegressionEvaluator 
from pyspark.ml Import Pipeline 


paramGrid = ParamGridBullder() \ 
.addGrid(gbt.maxDepth, [ 5,10])\ 
.addGrid(gbtmaxBins, [25,40])\ 
-addGrid(gbt.maxIter, [10, 50])\ 
.build() 


Cv = CrossValidator(estimator=gbt, evaluator=evaluator, 
estimatorParamMaps=paramGrid, numFolds=3) 
Cv_pipeline = Pipeline(stages={vectorAssembler, vectorIndexer, cv]) 


CT04 执行 交叉 验证 


下 列 程 序 代码 使 用 cv_pipeline.fit 传 入 train_df 训练 数据 ， 执 行 交叉 验证 。 


In [46]: cv_plpelineModel = cv_plpeline.flt(tralin_df) 
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C05 查看 最 住 模 型 
以 下 列 程序 代码 查看 最 佳 模型 。 


In [47]: m=cv_plpelineModel.stages[2] 
gbestModel=cvm.bestModel 
print bestModeltoDebugstring[:500] 


DecisionTreeRegressionModel (uid=DecisionTreeRegressor| 
If (feature 2 in {9.9,1.9,2.9,3.9,4.9,5.9,6.9,22.9,2| 
IT (feature 2 in {e.9,1.9,2.9,3.9,4.9,5.9}) 
If (feature 2 in {2.9,3.9,4.9,5.9]) 
If (feature 2 in {3.9,4.96]) 
If (feature 4 in {f1.9,2.9,3.9,4.9,5.9]) 
IT (feature 1 in {f9.9,1.9,2.9,3.9,11.9]) 
If (feature 7 <= 9.48) 
If (feature 9 in {9.9,1.9]) 
IT (feature 7 <= 9.4) 


C706 使 用 最 佳 模型 进行 预测 


先 使 用 predicted_df= cv_pipelineModel.transform(test_df) 传 入 test_df 进行 预测 ,然后 用 
predicted_df 显示 预测 结果 。 


In [77]: predicted_df=cv_plpelineModel.transform(test_df) 
predicted_df.select('season’, "mnth’, hr’, ‘hollday,, weekday, workingday, \ 
weathersl hum', windspeet rediction').show(10) 


1 

+ 

和 9.91 9.9l .81 1.919.9419.975819.571 。 9.1945122.91 42.777645551397951 
1 4.91 1. 9.91 9.91 6.91 4.919.1619.136419.471 。 9.3284159.9139.549499499798794| 
1 1.0| 1. 9.9| 9.9| .81 1.619.1619.18181 9.8| 。 6.1945133.6| 52.282793551829271 
1 1.91 1. 9.91 1.9| 1.91 1.919.22| 9.19719.44| 。 9.35821 5.9112.6161593125531561 
1 4.91 1. 9.91 1.91 1.91 2.919.3219.287919.261 。 9.4179119.9116.4722946144916881 
1 a 1.919.1419.166719.591 。 9.1945112.9111.3697599939998171 
1 人 2.919.2219.242419.871 。 6.1945114.9115.9339812951862971 
1 和 2.919.2619.22731 9.7| 。 9.3284112.9112.565447592592545| 
1 外 2.91 9.319.28791 1.91 ”9.2836125.91 -6.544525786896761 
1 4. 1.91 9.219.257619.641 9.9l 22.9719698895169831 


only snowlng top 19 rows 


07 计算 最 佳 模型 RMSE 
用 下 列 程序 代码 计算 最 佳 模型 RMSE， 结 果 RMSE 约 为 71， 误 差 又 小 了 一 些 。 


In [78]: evaluator = RegresslonEvaluator(metricName="rmse", | 
labelcol='cnt, predictlonCol='predlctlon 
rmse = evaluator.evaluate(predicted df) 
rmse 


Out[78]: 71.6723833269997 


Wa 4 


本 章 介绍 了 Spark 机 器 学 习 流程 (ML Pipeline) 多 元 分 类 ， 包 括 建 立 pipeline 机 器 学 习 
流程 ， 完 成 数据 处 理 、 训 练 模型 、 评 估 模 型 ， 并 预测 每 一 小 时 租借 总 数量 ， 最 后 使 用 训练 验证 
与 交叉 验证 找 出 最 佳 模型 ， 提 高 预测 准确 度 。 
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附录 A 
本 书 滩 例 程序 下 载 | 与 受 准 说 明 


附录 A， 本 书 范例 程序 下 载 与 安装 说 明 全 


本 书 范例 程序 主要 分 为 两 个 部 分 ， 说 明 如 下 : 


第 9、10、12、13、19、 2 章 ， 按 照 第 9 章 的 说 明 安 
IPython Notebook 范例 装 anaconda 及 其 设置 后 才能 使 用 这 些 范例 程序 


eclipse 项 目 范例 第 11~18 章 ， 必 须 先 按照 第 11 章 的 说 明 完 成 eclipse 的 安装 


与 全 部 设置 后 才能 执行 这 些 范例 程序 


下 载 范 例 程序 


人 ED 下 载 范例 程序 


启动 master 服务 器 的 “终端 ” 程序， 输入 下 列 指令 : 


> 切换 到 用 户 home 目录 
ed “~/ 


如 果 登 录 的 用 户 是 hduser， 那 么 home 目录 就 是 /home/hduser。 
> ”下载 范 例 程 序 
http://pan.baidu.com/s/1i4AzAKk9 
C302 解压 缩 范例 程序 
在 “终端 ”程序 中 输入 下 列 命令 来 解压 缩 范例 程序 : 


命令 说 明 


unzip MP21622_example.zip 解压 缩 范例 程序 


运行 后 屏幕 显示 界面 如 图 A-1 所 示 。 


hduser@master:~$ ll MP21622_example.zip 
-rW-rW-r-- 1 hduser hduser 41123416 8 月 31 15:49 MP21622_exanple.zip 
hduser@naster :~$ unzip MP21622_exanple.zipl 


图 A-1 解压 缩 范例 文件 
G03 查看 范例 程序 目录 


执行 解压 缩 后 会 解压 缩 在 ~/pythonsparkexample 目录 中 ， 可 用 以 下 命令 查看 : 


515 


寿 :， Python+Spark 2.0+Hadoop 机 器 学 习 与 大 数据 实战 


命令 


cd ~/pythonsparkexample 


屏幕 显示 界面 如 图 A-2 所 示 。 


x 5 hduser hduser 4696 / 

x 35 hduser hduser 4696 区 

-x 5 hduser hduser 4696 : tpynotebook/ 
x 3 hduser hduser 4696 .metadata/ 

x 6 hduser hduser 4696 : Pythonproject 


A-2 查看 范例 程序 目录 
以 上 目录 说 明 如 下 : 


目录 说 明 


ipynotebook/ 第 9、10、12、13、19、20、21、22 章 IPython Notebook 范例 
第 11~18 章 eclipse 项 目 范例 
eclipse 项 目 设置 的 相关 文件 ， 请 不 要 删除 


这 些 范例 程序 的 说 明 请 自行 参考 相关 章节 。 


打开 本 书 IPython Notebook 范例 程序 


打开 第 9、10、12、13、19、20、21、22 章 IPython Notebook 范例 ， 先 参照 第 9 章 的 说 
明 安 装 anaconda 及 其 设置 后 才能 使 用 这 些 范例 程序 。 


Fo01 启动 IPython Notebook 
在 “终端 ”程序 中 输入 下 列 命令 ， 进 入 IPython Notebook 交互 式 界面 。 


> 切换 IPython Notebook 范例 程序 工作 目录 
cd ~/pythonsparkexample/ipynotebook 


> 运行 IPython Notebook 使 用 Spark 


PYSPARK DRIVER PYTHON=ipython PYSPARK DRIVER PYTHON OPTS="notebook" 
MASTER=1local[4] pyspark 
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附录 A ”本 书 范例 程序 下 载 与 安装 说 阴 


按 Enter 键 后 就 会 启动 浏览 器 ， 默 认 的 网 址 是 http://localhost:8888， 进 去 后 即 可 看 到 


IPython NoteBook 的 界面 ， 如 图 A-3 所 示 。 


~/pythonsparkexample/ipynotebookS PYSPARK_DRIVER_PYTHON=ipython PR 
YTHON_OPTS="notebook" MASTER=Local[4] pyspark 
6 NotebookApp] The port 8888 is already tn use, trying another rar 


€ ® localhost:e8s9/tree © ||Q search 会 自 3 


二 Jupyter 
Fies Running ~ 


图 A-3 进入 IPython Notebook 界面 


本 B02 查看 IPython Notebook 范例 程序 ( 见 图 A-4) 


二 Jupyter 


@ emopyro 


B ay 
人 smapm 启动 后 ， 就 可 以 看 到 本 书 
dnt IPython Notebook 范例 程序 了 


@ cheo pyro 


@ crat.pyro 


cra pyro 


D aroy Jog 


图 A4 查看 范例 程序 


CD03 本 地 文件 的 存 取 路 径 


为 了 能 正确 读 取 本 地 文件 ,所 有 范例 程序 在 本 地 文件 的 存 取 路 径 都 已 经 被 修改 为 范例 程序 


的 路 径 file:/home/hduser/pythonsparkexample/PythonProject/， 如 图 A-5 所 示 。 


In [3]: global Path 
If sc.master[0:5]j=="local" : 
Path="flle:/home/hduser, 


pythonsparkexampld Pythonproject/” 
else: 


Path="hdfs://master:9000/user/hduser/™ 


图 A-5 修改 本 地 文件 的 存 取 路 径 


已 经 修改 为 范例 程序 路 径 
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车 Python+Spark 2.0+Hadoop 机 器 学 习 与 大 数据 实战 


打开 eclipse PythonProject 范例 程序 


这 是 eclipse 项 目 ， 所 以 必须 先 参照 第 11 章 的 说 明 完 成 eclipse 的 安装 与 全 部 设置 才能 
够 执行 这 些 范例 程序 。 


ET 启动 eclipse 
接 下 来 ， 我 们 将 使 用 eclipse 打开 SparkExample 目录 ， 如 图 A-6 所 示 。 


Ubuntu 桌面 


在 Ubuntu 桌面 用 鼠标 双击 
“链接 到 eclipse” 


A-6 启动 eclipse 


CT02 设置 工作 目录 ( 见 图 A-7) 


D Workspace Launcher 


Select a workspace 


Scala IDE stores your projects ina folder called a workspace. 
Choose a workspace folder to use for this session. 


Workspace: | /home/hduser/pythonsparkexample| 。 Browse 


I 1. 在 工作 目录 输入 “/home/hduser/pythonsparkexample” 
Use this as the default and do not ask again | 2. 单 击 OK 按钮 


Cancel OK 


图 A-7 设置 工作 目录 
本 D03 查看 PythonProject 项 目 


启动 eclipse 后 ， 可 以 在 Package Explorer 看 到 PythonProject 项 目 ， 第 11~18 章 的 相 
关 范 例 程 序 就 在 其 中 ， 如 图 A-8 所 示 。 


518 


附录 A， 本 书 范例 程序 下 载 与 安装 说 明 < 


口 - 加 站 己 图 三 口 国 qq vt-qg 


生 package Explorer 3 BE ”= 口 


* BEA el 
* 马 data 
BRecommend.py 
DO RecommendTrain py 
回 RecommendTrainEvaLpy 
目 RunpecisionTeeginary py 
回 RunpecisionmreeBinaryCategoricalFeaturesinfo py 
目 RunpecisionTesMukipy 
回 RunpecisionTreeRegressionpy 
四 RunLogisticRegressionwithscDeinarypy 
回 RunLogisticRegressionWithsGDBinaryNostand.py 
四 RunNaiveBayeseinary py 
@ RunsvMwithsGDBinary.py 
DO Wordcount.py 


-8 查看 Python Project 项 目 
C04 本 地 文件 的 存 取 路 径 


为 了 能 正确 读 取 本 地 文件 ， 所 有 的 范例 程序 ， 本 地 文件 的 存 取 路 径 , 我 们 都 已 经 修改 为 范 
例 程序 路 径 fe:/home/hduser/pythonsparkexample/PythonProject/， 如 图 A-9 所 示 。 


回 RunDecisionTreeBinary 3 


global Path 
if sc.master[0:5]== ozal 
Path= "file:/home/hd. 


else: 
Path= "hdfs://master:9000/user/hduser/” 
Print( "开关 导入 收据 .1 


rawDataWithHeader = SCtextFile(Path+ "dara/train.tsv’) 
header= rawDataWithHeader.first() 


A-9 本 地 文件 的 存 取 路 径 


519 


